TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation

📄 arXiv: 2602.18967v1 📥 PDF

作者: Felix Verstraete, Lan Wei, Wen Fan, Dandan Zhang

分类: cs.RO

发布日期: 2026-02-21

备注: Accepted by 2026 ICRA


💡 一句话要点

TactEx:融合视觉、触觉和语言的可解释机器人交互框架,用于类人硬度估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人交互 多模态融合 触觉感知 硬度估计 大型语言模型 可解释性 Grounded-SAM

📋 核心要点

  1. 现有机器人操作在硬度估计方面面临挑战,缺乏对触觉、视觉和语言信息的有效融合。
  2. TactEx框架融合视觉、触觉和语言信息,利用跨模态对齐和大型语言模型指导,实现类人硬度估计。
  3. 实验表明,TactEx在水果成熟度评估中表现出色,并能泛化到新任务,无需大量调整。

📝 摘要(中文)

本文提出TactEx,一个可解释的多模态机器人交互框架,它统一了视觉、触觉和语言,用于类人硬度估计和交互式指导。TactEx在水果成熟度评估任务上进行了评估,该任务需要触觉感知和上下文理解。系统融合了GelSight-Mini触觉流、RGB图像和语言提示。一个ResNet50+LSTM模型从序列触觉数据中估计硬度,而一个跨模态对齐模块将视觉线索与大型语言模型(LLM)的指导相结合。这种可解释的多模态界面允许用户区分成熟度级别,且具有统计学意义上的类别分离(所有水果对的p < 0.01)。在触觉放置方面,将YOLO与Grounded-SAM (GSAM)进行比较,发现GSAM对于细粒度分割和接触点选择更具鲁棒性。一个轻量级的LLM解析用户指令,并生成与触觉输出相关的基于自然语言的解释。在端到端评估中,TactEx在简单的用户查询中实现了90%的任务成功率,并且可以推广到新的任务,而无需大规模的调整。这些结果突出了将预训练的视觉和触觉模型与语言基础相结合,以推进机器人中可解释的、类人的触觉感知和决策的潜力。

🔬 方法详解

问题定义:论文旨在解决机器人难以像人类一样准确感知物体硬度的问题,尤其是在需要接触的复杂操作中。现有方法通常依赖单一模态的信息,或者缺乏对多模态信息的有效融合和解释能力,导致在实际应用中鲁棒性不足。

核心思路:论文的核心思路是将视觉、触觉和语言信息进行融合,利用预训练的视觉和触觉模型提取特征,并通过跨模态对齐模块将视觉信息与大型语言模型的指导相结合,从而实现更准确、更可解释的硬度估计。这种多模态融合的方式能够模拟人类的感知过程,提高机器人对环境的理解能力。

技术框架:TactEx框架主要包含以下几个模块:1) 触觉感知模块:使用GelSight-Mini传感器获取触觉数据,并使用ResNet50+LSTM模型从序列触觉数据中估计硬度。2) 视觉感知模块:使用RGB摄像头获取视觉信息。3) 跨模态对齐模块:将视觉线索与大型语言模型(LLM)的指导相结合。4) 语言理解模块:使用轻量级的LLM解析用户指令,并生成与触觉输出相关的自然语言解释。5) 接触点选择模块:使用Grounded-SAM (GSAM)进行细粒度分割和接触点选择。

关键创新:该论文的关键创新在于:1) 提出了一个可解释的多模态机器人交互框架,能够融合视觉、触觉和语言信息。2) 利用大型语言模型(LLM)进行指导,提高了硬度估计的准确性和可解释性。3) 使用Grounded-SAM (GSAM)进行细粒度分割和接触点选择,提高了接触点选择的鲁棒性。

关键设计:在触觉感知模块中,使用了ResNet50+LSTM模型,其中ResNet50用于提取触觉图像的特征,LSTM用于处理序列数据。在跨模态对齐模块中,使用了注意力机制,将视觉信息与LLM的指导进行对齐。在语言理解模块中,使用了轻量级的LLM,以降低计算成本。在接触点选择模块中,使用了Grounded-SAM (GSAM),并针对接触点选择任务进行了微调。

📊 实验亮点

TactEx在水果成熟度评估任务上取得了显著成果,实现了统计学意义上的类别分离(所有水果对的p < 0.01)。在端到端评估中,TactEx在简单的用户查询中实现了90%的任务成功率,并且可以推广到新的任务,而无需大规模的调整。GSAM在接触点选择方面优于YOLO,表现出更强的鲁棒性。

🎯 应用场景

TactEx框架具有广泛的应用前景,例如:水果采摘、食品质量检测、医疗诊断、精密装配等。通过融合视觉、触觉和语言信息,机器人可以更好地理解环境,并执行更复杂的操作。该研究有助于推动机器人技术在农业、工业和医疗等领域的应用,提高生产效率和产品质量。

📄 摘要(原文)

Accurate perception of object hardness is essential for safe and dexterous contact-rich robotic manipulation. Here, we present TactEx, an explainable multimodal robotic interaction framework that unifies vision, touch, and language for human-like hardness estimation and interactive guidance. We evaluate TactEx on fruit-ripeness assessment, a representative task that requires both tactile sensing and contextual understanding. The system fuses GelSight-Mini tactile streams with RGB observations and language prompts. A ResNet50+LSTM model estimates hardness from sequential tactile data, while a cross-modal alignment module combines visual cues with guidance from a large language model (LLM). This explainable multimodal interface allows users to distinguish ripeness levels with statistically significant class separation (p < 0.01 for all fruit pairs). For touch placement, we compare YOLO with Grounded-SAM (GSAM) and find GSAM to be more robust for fine-grained segmentation and contact-site selection. A lightweight LLM parses user instructions and produces grounded natural-language explanations linked to the tactile outputs. In end-to-end evaluations, TactEx attains 90% task success on simple user queries and generalises to novel tasks without large-scale tuning. These results highlight the promise of combining pretrained visual and tactile models with language grounding to advance explainable, human-like touch perception and decision-making in robotics.