TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation

作者: Felix Verstraete, Lan Wei, Wen Fan, Dandan Zhang

分类: cs.RO

发布日期: 2026-02-21

备注: Accepted by 2026 ICRA

💡 一句话要点

TactEx：融合视觉、触觉和语言的可解释机器人交互框架，用于类人硬度估计

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人交互 多模态融合 触觉感知 硬度估计 大型语言模型 可解释性 Grounded-SAM

📋 核心要点

现有机器人操作在硬度估计方面面临挑战，缺乏对触觉、视觉和语言信息的有效融合。
TactEx框架融合视觉、触觉和语言信息，利用跨模态对齐和大型语言模型指导，实现类人硬度估计。
实验表明，TactEx在水果成熟度评估中表现出色，并能泛化到新任务，无需大量调整。

📝 摘要（中文）

本文提出TactEx，一个可解释的多模态机器人交互框架，它统一了视觉、触觉和语言，用于类人硬度估计和交互式指导。TactEx在水果成熟度评估任务上进行了评估，该任务需要触觉感知和上下文理解。系统融合了GelSight-Mini触觉流、RGB图像和语言提示。一个ResNet50+LSTM模型从序列触觉数据中估计硬度，而一个跨模态对齐模块将视觉线索与大型语言模型(LLM)的指导相结合。这种可解释的多模态界面允许用户区分成熟度级别，且具有统计学意义上的类别分离(所有水果对的p < 0.01)。在触觉放置方面，将YOLO与Grounded-SAM (GSAM)进行比较，发现GSAM对于细粒度分割和接触点选择更具鲁棒性。一个轻量级的LLM解析用户指令，并生成与触觉输出相关的基于自然语言的解释。在端到端评估中，TactEx在简单的用户查询中实现了90%的任务成功率，并且可以推广到新的任务，而无需大规模的调整。这些结果突出了将预训练的视觉和触觉模型与语言基础相结合，以推进机器人中可解释的、类人的触觉感知和决策的潜力。

🔬 方法详解

问题定义：论文旨在解决机器人难以像人类一样准确感知物体硬度的问题，尤其是在需要接触的复杂操作中。现有方法通常依赖单一模态的信息，或者缺乏对多模态信息的有效融合和解释能力，导致在实际应用中鲁棒性不足。

核心思路：论文的核心思路是将视觉、触觉和语言信息进行融合，利用预训练的视觉和触觉模型提取特征，并通过跨模态对齐模块将视觉信息与大型语言模型的指导相结合，从而实现更准确、更可解释的硬度估计。这种多模态融合的方式能够模拟人类的感知过程，提高机器人对环境的理解能力。

技术框架：TactEx框架主要包含以下几个模块：1) 触觉感知模块：使用GelSight-Mini传感器获取触觉数据，并使用ResNet50+LSTM模型从序列触觉数据中估计硬度。2) 视觉感知模块：使用RGB摄像头获取视觉信息。3) 跨模态对齐模块：将视觉线索与大型语言模型(LLM)的指导相结合。4) 语言理解模块：使用轻量级的LLM解析用户指令，并生成与触觉输出相关的自然语言解释。5) 接触点选择模块：使用Grounded-SAM (GSAM)进行细粒度分割和接触点选择。

关键创新：该论文的关键创新在于：1) 提出了一个可解释的多模态机器人交互框架，能够融合视觉、触觉和语言信息。2) 利用大型语言模型(LLM)进行指导，提高了硬度估计的准确性和可解释性。3) 使用Grounded-SAM (GSAM)进行细粒度分割和接触点选择，提高了接触点选择的鲁棒性。

关键设计：在触觉感知模块中，使用了ResNet50+LSTM模型，其中ResNet50用于提取触觉图像的特征，LSTM用于处理序列数据。在跨模态对齐模块中，使用了注意力机制，将视觉信息与LLM的指导进行对齐。在语言理解模块中，使用了轻量级的LLM，以降低计算成本。在接触点选择模块中，使用了Grounded-SAM (GSAM)，并针对接触点选择任务进行了微调。

📊 实验亮点

TactEx在水果成熟度评估任务上取得了显著成果，实现了统计学意义上的类别分离(所有水果对的p < 0.01)。在端到端评估中，TactEx在简单的用户查询中实现了90%的任务成功率，并且可以推广到新的任务，而无需大规模的调整。GSAM在接触点选择方面优于YOLO，表现出更强的鲁棒性。

🎯 应用场景

TactEx框架具有广泛的应用前景，例如：水果采摘、食品质量检测、医疗诊断、精密装配等。通过融合视觉、触觉和语言信息，机器人可以更好地理解环境，并执行更复杂的操作。该研究有助于推动机器人技术在农业、工业和医疗等领域的应用，提高生产效率和产品质量。

📄 摘要（原文）

Accurate perception of object hardness is essential for safe and dexterous contact-rich robotic manipulation. Here, we present TactEx, an explainable multimodal robotic interaction framework that unifies vision, touch, and language for human-like hardness estimation and interactive guidance. We evaluate TactEx on fruit-ripeness assessment, a representative task that requires both tactile sensing and contextual understanding. The system fuses GelSight-Mini tactile streams with RGB observations and language prompts. A ResNet50+LSTM model estimates hardness from sequential tactile data, while a cross-modal alignment module combines visual cues with guidance from a large language model (LLM). This explainable multimodal interface allows users to distinguish ripeness levels with statistically significant class separation (p < 0.01 for all fruit pairs). For touch placement, we compare YOLO with Grounded-SAM (GSAM) and find GSAM to be more robust for fine-grained segmentation and contact-site selection. A lightweight LLM parses user instructions and produces grounded natural-language explanations linked to the tactile outputs. In end-to-end evaluations, TactEx attains 90% task success on simple user queries and generalises to novel tasks without large-scale tuning. These results highlight the promise of combining pretrained visual and tactile models with language grounding to advance explainable, human-like touch perception and decision-making in robotics.

TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理