VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing

作者: Junyi Zong, Qingxuan Jia, Meixian Shi, Tong Li, Jiayuan Li, Zihang Lv, Gang Chen, Fang Deng

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-07

💡 一句话要点

提出VitaTouch，用于智能制造中融合视觉、触觉和语言的机器人质量检测。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人质量检测 视觉触觉融合 多模态学习 大型语言模型 智能制造

📋 核心要点

现有仅依赖视觉的质量检测方法易受遮挡和反射影响，难以准确识别材料的内在属性。
VitaTouch通过融合视觉、触觉和语言信息，利用模态特定编码器和双Q-Former提取关键特征，提升属性识别能力。
VitaTouch在多个基准测试和自建数据集VitaSet上表现出色，并在机器人缺陷识别和分拣任务中取得了显著成果。

📝 摘要（中文）

本文提出了一种属性感知的视觉-触觉-语言模型VitaTouch，用于材料属性推断和自然语言属性描述，旨在解决智能制造中的质量检测问题。现有仅依赖视觉的方法容易受到遮挡和反射的影响，难以识别内在的材料和表面属性。VitaTouch利用模态特定的编码器和双Q-Former提取与语言相关的视觉和触觉特征，并将这些特征压缩成前缀令牌输入大型语言模型。通过对比学习，VitaTouch将每种模态与文本对齐，并显式地耦合视觉和触觉。此外，本文构建了一个包含186个对象、52k张图像和5.1k个人工验证的指令-答案对的多模态数据集VitaSet。实验结果表明，VitaTouch在HCT和整体TVL基准测试中取得了最佳性能，并在SSVTP上保持了竞争力。在VitaSet上，VitaTouch的硬度准确率达到88.89%，粗糙度准确率达到75.13%，描述符召回率达到54.81%；材料描述任务的语义相似度峰值达到0.9009。通过基于LoRA的微调，VitaTouch在2类、3类和5类缺陷识别中分别达到了100.0%、96.0%和92.0%的准确率，并在100次实验室机器人试验中实现了94.0%的闭环识别准确率和94.0%的端到端分拣成功率。

🔬 方法详解

问题定义：论文旨在解决智能制造中，仅依靠视觉信息进行质量检测的局限性。现有方法难以准确判断材料的内在属性（如硬度、粗糙度）和缺陷类型，尤其是在存在遮挡、反射等干扰的情况下。这限制了机器人自动化质量检测的效率和可靠性。

核心思路：论文的核心思路是融合视觉、触觉和语言三种模态的信息，构建一个属性感知的多模态模型。通过触觉感知弥补视觉的不足，利用语言信息进行属性描述和推理，从而更全面、准确地理解材料的特性。这种多模态融合能够提升模型对复杂环境和材料变化的鲁棒性。

技术框架：VitaTouch的整体框架包含以下几个主要模块：1) 模态特定编码器：分别提取视觉和触觉特征；2) 双Q-Former：提取与语言相关的视觉和触觉特征；3) 大型语言模型（LLM）：利用提取的特征生成属性描述和进行推理；4) 对比学习模块：用于对齐视觉、触觉和文本三种模态的信息。整个流程是先通过编码器提取特征，然后利用Q-Former进行特征选择和压缩，最后输入LLM进行属性预测和描述。

关键创新：VitaTouch的关键创新在于：1) 显式地融合了视觉和触觉信息，弥补了单一模态的不足；2) 使用双Q-Former提取与语言相关的多模态特征，提高了特征的表达能力和效率；3) 通过对比学习对齐不同模态的信息，增强了模型的多模态理解能力。与现有方法相比，VitaTouch更注重多模态信息的融合和利用，从而提升了属性识别的准确性和鲁棒性。

关键设计：在网络结构方面，VitaTouch使用了模态特定的编码器，例如视觉编码器可以使用ResNet或ViT，触觉编码器可以使用Transformer。双Q-Former的设计允许模型选择性地关注与语言相关的视觉和触觉特征。对比学习损失函数用于对齐不同模态的特征表示。LoRA（Low-Rank Adaptation）被用于微调大型语言模型，以适应特定的缺陷识别任务。具体参数设置和损失函数选择可能需要根据实际数据集进行调整。

🖼️ 关键图片

📊 实验亮点

VitaTouch在HCT和TVL基准测试中取得了最佳性能，并在VitaSet数据集上实现了88.89%的硬度准确率、75.13%的粗糙度准确率和54.81%的描述符召回率。通过LoRA微调，VitaTouch在2类、3类和5类缺陷识别中分别达到了100.0%、96.0%和92.0%的准确率，并在机器人试验中实现了94.0%的闭环识别准确率和94.0%的端到端分拣成功率。

🎯 应用场景

VitaTouch在智能制造领域具有广泛的应用前景，可用于自动化质量检测、机器人分拣、材料识别和缺陷诊断等任务。该技术能够提升生产效率、降低人工成本，并提高产品质量。未来，VitaTouch有望应用于更复杂的工业场景，例如航空航天、汽车制造和电子产品生产等。

📄 摘要（原文）

Quality inspection in smart manufacturing requires identifying intrinsic material and surface properties beyond visible geometry, yet vision-only methods remain vulnerable to occlusion and reflection. We propose VitaTouch, a property-aware vision-tactile-language model for material-property inference and natural-language attribute description. VitaTouch uses modality-specific encoders and a dual Q-Former to extract language-relevant visual and tactile features, which are compressed into prefix tokens for a large language model. We align each modality with text and explicitly couple vision and touch through contrastive learning. We also construct VitaSet, a multimodal dataset with 186 objects, 52k images, and 5.1k human-verified instruction-answer pairs. VitaTouch achieves the best performance on HCT and the overall TVL benchmark, while remaining competitive on SSVTP. On VitaSet, it reaches 88.89% hardness accuracy, 75.13% roughness accuracy, and 54.81% descriptor recall; the material-description task further achieves a peak semantic similarity of 0.9009. With LoRA-based fine-tuning, VitaTouch attains 100.0%, 96.0%, and 92.0% accuracy for 2-, 3-, and 5-category defect recognition, respectively, and delivers 94.0% closed-loop recognition accuracy and 94.0% end-to-end sorting success in 100 laboratory robotic trials. More details are available at the project page:this https URL

VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理