VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing

📄 arXiv: 2604.03322 📥 PDF

作者: Junyi Zong, Qingxuan Jia, Meixian Shi, Tong Li, Jiayuan Li, Zihang Lv, Gang Chen, Fang Deng

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-07


💡 一句话要点

提出VitaTouch,用于智能制造中融合视觉、触觉和语言的机器人质量检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人质量检测 视觉触觉融合 多模态学习 大型语言模型 智能制造

📋 核心要点

  1. 现有仅依赖视觉的质量检测方法易受遮挡和反射影响,难以准确识别材料的内在属性。
  2. VitaTouch通过融合视觉、触觉和语言信息,利用模态特定编码器和双Q-Former提取关键特征,提升属性识别能力。
  3. VitaTouch在多个基准测试和自建数据集VitaSet上表现出色,并在机器人缺陷识别和分拣任务中取得了显著成果。

📝 摘要(中文)

本文提出了一种属性感知的视觉-触觉-语言模型VitaTouch,用于材料属性推断和自然语言属性描述,旨在解决智能制造中的质量检测问题。现有仅依赖视觉的方法容易受到遮挡和反射的影响,难以识别内在的材料和表面属性。VitaTouch利用模态特定的编码器和双Q-Former提取与语言相关的视觉和触觉特征,并将这些特征压缩成前缀令牌输入大型语言模型。通过对比学习,VitaTouch将每种模态与文本对齐,并显式地耦合视觉和触觉。此外,本文构建了一个包含186个对象、52k张图像和5.1k个人工验证的指令-答案对的多模态数据集VitaSet。实验结果表明,VitaTouch在HCT和整体TVL基准测试中取得了最佳性能,并在SSVTP上保持了竞争力。在VitaSet上,VitaTouch的硬度准确率达到88.89%,粗糙度准确率达到75.13%,描述符召回率达到54.81%;材料描述任务的语义相似度峰值达到0.9009。通过基于LoRA的微调,VitaTouch在2类、3类和5类缺陷识别中分别达到了100.0%、96.0%和92.0%的准确率,并在100次实验室机器人试验中实现了94.0%的闭环识别准确率和94.0%的端到端分拣成功率。

🔬 方法详解

问题定义:论文旨在解决智能制造中,仅依靠视觉信息进行质量检测的局限性。现有方法难以准确判断材料的内在属性(如硬度、粗糙度)和缺陷类型,尤其是在存在遮挡、反射等干扰的情况下。这限制了机器人自动化质量检测的效率和可靠性。

核心思路:论文的核心思路是融合视觉、触觉和语言三种模态的信息,构建一个属性感知的多模态模型。通过触觉感知弥补视觉的不足,利用语言信息进行属性描述和推理,从而更全面、准确地理解材料的特性。这种多模态融合能够提升模型对复杂环境和材料变化的鲁棒性。

技术框架:VitaTouch的整体框架包含以下几个主要模块:1) 模态特定编码器:分别提取视觉和触觉特征;2) 双Q-Former:提取与语言相关的视觉和触觉特征;3) 大型语言模型(LLM):利用提取的特征生成属性描述和进行推理;4) 对比学习模块:用于对齐视觉、触觉和文本三种模态的信息。整个流程是先通过编码器提取特征,然后利用Q-Former进行特征选择和压缩,最后输入LLM进行属性预测和描述。

关键创新:VitaTouch的关键创新在于:1) 显式地融合了视觉和触觉信息,弥补了单一模态的不足;2) 使用双Q-Former提取与语言相关的多模态特征,提高了特征的表达能力和效率;3) 通过对比学习对齐不同模态的信息,增强了模型的多模态理解能力。与现有方法相比,VitaTouch更注重多模态信息的融合和利用,从而提升了属性识别的准确性和鲁棒性。

关键设计:在网络结构方面,VitaTouch使用了模态特定的编码器,例如视觉编码器可以使用ResNet或ViT,触觉编码器可以使用Transformer。双Q-Former的设计允许模型选择性地关注与语言相关的视觉和触觉特征。对比学习损失函数用于对齐不同模态的特征表示。LoRA(Low-Rank Adaptation)被用于微调大型语言模型,以适应特定的缺陷识别任务。具体参数设置和损失函数选择可能需要根据实际数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VitaTouch在HCT和TVL基准测试中取得了最佳性能,并在VitaSet数据集上实现了88.89%的硬度准确率、75.13%的粗糙度准确率和54.81%的描述符召回率。通过LoRA微调,VitaTouch在2类、3类和5类缺陷识别中分别达到了100.0%、96.0%和92.0%的准确率,并在机器人试验中实现了94.0%的闭环识别准确率和94.0%的端到端分拣成功率。

🎯 应用场景

VitaTouch在智能制造领域具有广泛的应用前景,可用于自动化质量检测、机器人分拣、材料识别和缺陷诊断等任务。该技术能够提升生产效率、降低人工成本,并提高产品质量。未来,VitaTouch有望应用于更复杂的工业场景,例如航空航天、汽车制造和电子产品生产等。

📄 摘要(原文)

Quality inspection in smart manufacturing requires identifying intrinsic material and surface properties beyond visible geometry, yet vision-only methods remain vulnerable to occlusion and reflection. We propose VitaTouch, a property-aware vision-tactile-language model for material-property inference and natural-language attribute description. VitaTouch uses modality-specific encoders and a dual Q-Former to extract language-relevant visual and tactile features, which are compressed into prefix tokens for a large language model. We align each modality with text and explicitly couple vision and touch through contrastive learning. We also construct VitaSet, a multimodal dataset with 186 objects, 52k images, and 5.1k human-verified instruction-answer pairs. VitaTouch achieves the best performance on HCT and the overall TVL benchmark, while remaining competitive on SSVTP. On VitaSet, it reaches 88.89% hardness accuracy, 75.13% roughness accuracy, and 54.81% descriptor recall; the material-description task further achieves a peak semantic similarity of 0.9009. With LoRA-based fine-tuning, VitaTouch attains 100.0%, 96.0%, and 92.0% accuracy for 2-, 3-, and 5-category defect recognition, respectively, and delivers 94.0% closed-loop recognition accuracy and 94.0% end-to-end sorting success in 100 laboratory robotic trials. More details are available at the project page:this https URL