VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

📄 arXiv: 2603.23481v1 📥 PDF

作者: Haoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2026-03-24

备注: https://plan-lab.github.io/projects/vtam/


💡 一句话要点

提出VTAM:融合触觉信息的视频-动作模型,提升复杂物理交互性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频-动作模型 触觉感知 多模态融合 具身智能 物理交互

📋 核心要点

  1. 现有视频-动作模型在接触丰富的操作任务中,仅依赖视觉信息难以准确预测动作,尤其是在力调节和接触转换等细微交互上。
  2. VTAM通过融合触觉感知信息,作为视觉的补充,增强模型对交互状态的理解,并设计触觉正则化损失以平衡跨模态注意力。
  3. 实验表明,VTAM在接触丰富的操作任务中表现优异,例如在薯片拾取和放置任务中,性能显著优于基线模型。

📝 摘要(中文)

视频-动作模型(VAMs)已成为具身智能领域有前景的框架,它从原始视频流中学习隐式的世界动态,从而产生时间上一致的动作预测。尽管此类模型在通过视觉推理的长程任务中表现出强大的性能,但它们在接触丰富的场景中仍然受到限制,因为关键的交互状态仅能从视觉中部分观察到。特别是,精细的力调节和接触转换无法在视觉token中可靠地编码,从而导致不稳定或不精确的行为。为了弥合这一差距,我们引入了视频-触觉动作模型(VTAM),这是一个多模态世界建模框架,它将触觉感知作为补充的 grounding 信号。VTAM通过轻量级的模态迁移微调来增强预训练的视频transformer,从而实现高效的跨模态表征学习,而无需触觉-语言配对数据或独立的触觉预训练。为了稳定多模态融合,我们引入了一种触觉正则化损失,该损失强制执行平衡的跨模态注意力,防止视觉潜在变量在动作模型中占据主导地位。VTAM在接触丰富的操作中表现出卓越的性能,平均保持90%的鲁棒成功率。在需要高保真力感知的具有挑战性的场景中,例如薯片拾取和放置,VTAM的性能优于pi 0.5基线80%。我们的研究结果表明,整合触觉反馈对于纠正世界动作模型中的视觉估计误差至关重要,从而为物理 grounding 的具身基础模型提供了一种可扩展的方法。

🔬 方法详解

问题定义:现有视频-动作模型(VAMs)在处理接触丰富的物理交互任务时,由于视觉信息不足以完全捕捉交互状态(如精细的力反馈和接触状态变化),导致动作预测不稳定或不精确。这限制了VAMs在需要精确控制和稳定性的任务中的应用。

核心思路:VTAM的核心思路是将触觉信息作为视觉信息的补充,通过多模态融合的方式,增强模型对交互状态的感知能力。通过引入触觉感知,模型可以更好地理解物体间的接触力、滑动等信息,从而更准确地预测动作。

技术框架:VTAM框架主要包含以下几个模块:1) 预训练的视频Transformer:用于提取视频特征。2) 触觉信息输入:将触觉传感器数据作为额外的输入。3) 模态迁移微调:通过轻量级的微调,将触觉信息融入到视频Transformer中,实现跨模态表征学习。4) 触觉正则化损失:用于平衡视觉和触觉信息在模型中的权重,防止视觉信息主导模型。整体流程是,视频和触觉数据分别输入到各自的编码器中,然后通过跨模态融合模块进行融合,最后输出动作预测。

关键创新:VTAM的关键创新在于:1) 引入触觉信息作为视觉信息的补充,解决了VAMs在接触丰富场景中的感知不足问题。2) 提出了一种轻量级的模态迁移微调方法,实现了高效的跨模态表征学习,无需大量的触觉-语言配对数据或独立的触觉预训练。3) 设计了触觉正则化损失,平衡了视觉和触觉信息在模型中的权重,提高了模型的鲁棒性。

关键设计:触觉正则化损失是关键设计之一,其目的是防止视觉潜在变量在动作模型中占据主导地位。具体实现方式是,通过约束跨模态注意力机制,使得模型在预测动作时,既要关注视觉信息,也要关注触觉信息。损失函数的具体形式未知,但其目标是平衡不同模态的贡献,提高模型的泛化能力。

📊 实验亮点

VTAM在接触丰富的操作任务中表现出卓越的性能,平均保持90%的鲁棒成功率。在需要高保真力感知的具有挑战性的场景中,例如薯片拾取和放置,VTAM的性能优于pi 0.5基线80%。这些结果表明,VTAM能够有效地利用触觉信息,提高模型在复杂物理交互任务中的性能。

🎯 应用场景

VTAM具有广泛的应用前景,例如在机器人操作、自动化装配、医疗手术等领域。它可以应用于需要精确力控制和稳定性的任务,例如精细零件的装配、易碎物品的抓取和放置、以及需要触觉反馈的远程操作等。未来,VTAM有望成为具身智能领域的重要组成部分,推动机器人技术的发展。

📄 摘要(原文)

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.