VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

📄 arXiv: 2505.09577v1 📥 PDF

作者: Chaofan Zhang, Peng Hao, Xiaoge Cao, Xiaoshuai Hao, Shaowei Cui, Shuo Wang

分类: cs.RO

发布日期: 2025-05-14


💡 一句话要点

提出VTLA模型,通过视觉-触觉-语言融合和偏好学习,提升机器人插入操作的鲁棒性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉触觉融合 语言条件控制 直接偏好优化 接触密集型任务

📋 核心要点

  1. 现有视觉-语言模型在接触密集型机器人操作任务中应用不足,尤其缺乏对触觉信息的有效利用。
  2. VTLA模型通过跨模态语言对齐整合视觉和触觉信息,并使用直接偏好优化(DPO)进行训练,提升策略的鲁棒性。
  3. 实验表明,VTLA模型在模拟和真实世界的钉孔插入任务中均表现出色,成功率超过90%,优于现有方法。

📝 摘要(中文)

本文提出了一种视觉-触觉-语言-动作模型(VTLA),旨在通过跨模态语言对齐有效整合视觉和触觉输入,从而在接触密集型场景中生成鲁棒的策略,解决现有视觉-语言模型在语言条件机器人操作中,尤其是在超越视觉主导的抓取放置任务之外的接触密集型任务中应用不足的问题。为此,作者在模拟环境中构建了一个低成本的多模态数据集,其中包含专门为指尖插入任务设计的视觉-触觉-动作-指令对。此外,引入了直接偏好优化(DPO)为VTLA模型提供类似回归的监督,有效弥合了基于分类的下一个token预测损失与连续机器人任务之间的差距。实验结果表明,VTLA模型优于传统的模仿学习方法(如扩散策略)和现有的多模态基线(TLA/VLA),在未见过的钉子形状上实现了超过90%的成功率。最后,进行了真实的钉孔插入实验,证明了所提出的VTLA模型出色的Sim2Real性能。

🔬 方法详解

问题定义:现有方法在处理接触密集型的机器人操作任务时,往往依赖视觉信息,忽略了触觉信息的重要性。这导致在一些场景下,机器人无法准确感知环境,从而影响操作的成功率。此外,传统的模仿学习方法在训练过程中,容易受到数据偏差的影响,导致泛化能力不足。

核心思路:VTLA模型的核心思路是将视觉、触觉和语言信息进行融合,通过跨模态的语言对齐,使机器人能够更好地理解任务指令,并根据环境的反馈进行调整。同时,使用直接偏好优化(DPO)进行训练,避免了传统模仿学习中的数据偏差问题,提高了模型的泛化能力。

技术框架:VTLA模型包含视觉编码器、触觉编码器、语言编码器和动作解码器。视觉编码器和触觉编码器分别提取视觉和触觉特征,语言编码器将任务指令编码为语言特征。然后,通过跨模态的语言对齐,将视觉、触觉和语言特征进行融合。最后,动作解码器根据融合后的特征生成机器人的动作指令。整个框架采用端到端的训练方式。

关键创新:VTLA模型的关键创新在于以下几点:1) 提出了视觉-触觉-语言融合的框架,有效利用了多模态信息;2) 引入了直接偏好优化(DPO)进行训练,避免了传统模仿学习中的数据偏差问题;3) 构建了一个专门为指尖插入任务设计的低成本多模态数据集。与现有方法相比,VTLA模型能够更好地处理接触密集型的机器人操作任务,并具有更强的泛化能力。

关键设计:视觉编码器和触觉编码器采用卷积神经网络(CNN),语言编码器采用Transformer网络。动作解码器采用循环神经网络(RNN)。DPO损失函数的设计参考了reward modeling的思想,通过比较不同动作序列的偏好,来优化模型的策略。数据集包含多种不同形状的钉子和孔,以及不同的任务指令。训练过程中,采用了数据增强等技术,以提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VTLA模型在模拟环境和真实世界的钉孔插入任务中均取得了显著的性能提升。在未见过的钉子形状上,VTLA模型的成功率超过90%,显著优于传统的模仿学习方法(如扩散策略)和现有的多模态基线(TLA/VLA)。Sim2Real实验也验证了VTLA模型良好的泛化能力。

🎯 应用场景

VTLA模型可应用于各种接触密集型的机器人操作任务,例如精密装配、医疗手术、以及在复杂环境下的物体操作。该研究有助于提升机器人在真实世界中的适应性和智能化水平,降低对人工干预的依赖,提高生产效率和操作安全性。未来,该模型有望扩展到更广泛的机器人应用领域。

📄 摘要(原文)

While vision-language models have advanced significantly, their application in language-conditioned robotic manipulation is still underexplored, especially for contact-rich tasks that extend beyond visually dominant pick-and-place scenarios. To bridge this gap, we introduce Vision-Tactile-Language-Action model, a novel framework that enables robust policy generation in contact-intensive scenarios by effectively integrating visual and tactile inputs through cross-modal language grounding. A low-cost, multi-modal dataset has been constructed in a simulation environment, containing vision-tactile-action-instruction pairs specifically designed for the fingertip insertion task. Furthermore, we introduce Direct Preference Optimization (DPO) to offer regression-like supervision for the VTLA model, effectively bridging the gap between classification-based next token prediction loss and continuous robotic tasks. Experimental results show that the VTLA model outperforms traditional imitation learning methods (e.g., diffusion policies) and existing multi-modal baselines (TLA/VLA), achieving over 90% success rates on unseen peg shapes. Finally, we conduct real-world peg-in-hole experiments to demonstrate the exceptional Sim2Real performance of the proposed VTLA model. For supplementary videos and results, please visit our project website: https://sites.google.com/view/vtla