OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation
作者: Yuhang Zheng, Songen Gu, Weize Li, Yupeng Zheng, Yujie Zang, Shuai Tian, Xiang Li, Ruihai Wu, Ce Hao, Chen Gao, Si Liu, Haoran Li, Yilun Chen, Shuicheng Yan, Wenchao Ding
分类: cs.RO
发布日期: 2026-03-19
备注: TARS Robotics Project Page: https://mrsecant.github.io/OmniVTA
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OmniVTA:用于接触式机器人操作的视觉-触觉世界建模框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 视觉触觉融合 机器人操作 世界模型 接触动力学 自监督学习 闭环控制 强化学习
📋 核心要点
- 现有视觉-触觉操作数据集规模小,任务覆盖范围有限,阻碍了相关研究的进展。
- OmniVTA框架通过自监督触觉编码、双流世界模型、接触感知融合策略和高频反射控制器,实现精确的接触式操作。
- 实验表明,OmniVTA在接触式操作任务中优于现有方法,并能泛化到未见过的物体和几何配置。
📝 摘要(中文)
接触式操作任务,如擦拭和组装,需要精确感知接触力、摩擦变化和状态转换,而这些仅凭视觉信息难以可靠推断。尽管人们对视觉-触觉操作的兴趣日益浓厚,但进展受到两个长期存在的限制:现有数据集规模小且任务覆盖范围窄,并且当前方法将触觉信号视为被动观察,而不是利用它们来建模接触动力学或显式地实现闭环控制。本文提出了OmniViTac,一个大规模视觉-触觉-动作数据集,包含86个任务和100多个对象的21000+条轨迹,组织成六种基于物理的交互模式。基于此数据集,我们提出了OmniVTA,一个基于世界模型的视觉-触觉操作框架,它集成了四个紧密耦合的模块:一个自监督触觉编码器,一个用于预测短时程接触演化的双流视觉-触觉世界模型,一个用于动作生成的接触感知融合策略,以及一个以60Hz运行的反射控制器,用于闭环校正预测和观察到的触觉信号之间的偏差。在所有六个交互类别中的真实机器人实验表明,OmniVTA优于现有方法,并且可以很好地泛化到未见过的对象和几何配置,证实了将预测性接触建模与高频触觉反馈相结合对于接触式操作的价值。所有数据、模型和代码将在项目网站上公开发布。
🔬 方法详解
问题定义:现有方法在接触式机器人操作中,通常依赖视觉信息,难以准确感知接触力、摩擦变化和状态转换。触觉信息往往被动使用,无法有效建模接触动力学,限制了闭环控制的性能。因此,需要一个能够有效融合视觉和触觉信息,并能进行预测性建模的框架,以提升接触式操作的精度和鲁棒性。
核心思路:OmniVTA的核心思路是将视觉和触觉信息融合到一个世界模型中,该模型能够预测短时程的接触演化。通过自监督学习提取触觉特征,并结合视觉信息,利用双流网络进行预测。同时,设计接触感知的融合策略,生成合适的动作。最后,利用高频触觉反馈进行闭环控制,校正预测偏差。
技术框架:OmniVTA框架包含四个主要模块:1) 自监督触觉编码器:用于提取触觉传感器的特征表示。2) 双流视觉-触觉世界模型:用于预测短时程的接触演化,分别处理视觉和触觉信息,并进行融合。3) 接触感知融合策略:根据世界模型的预测结果,生成合适的动作。4) 60Hz反射控制器:利用高频触觉反馈,校正预测和观察到的触觉信号之间的偏差,实现闭环控制。
关键创新:OmniVTA的关键创新在于将视觉和触觉信息紧密集成到一个世界模型中,并利用该模型进行预测性控制。与现有方法不同,OmniVTA不仅将触觉信息作为被动观察,而是将其用于建模接触动力学,并显式地用于闭环控制。此外,高频触觉反馈的引入,进一步提升了系统的鲁棒性和精度。
关键设计:OmniVTA使用自监督学习方法训练触觉编码器,例如对比学习。双流世界模型采用Transformer架构,分别处理视觉和触觉信息,并通过交叉注意力机制进行融合。接触感知融合策略采用强化学习方法,训练一个策略网络,根据世界模型的预测结果生成动作。反射控制器采用PID控制,根据触觉误差信号调整机器人的运动。
🖼️ 关键图片
📊 实验亮点
OmniVTA在六种不同的接触式操作任务中进行了评估,实验结果表明,OmniVTA显著优于现有方法,并且能够很好地泛化到未见过的物体和几何配置。具体而言,OmniVTA在成功率和操作精度方面均取得了显著提升,证明了将预测性接触建模与高频触觉反馈相结合的有效性。
🎯 应用场景
OmniVTA框架在接触式机器人操作领域具有广泛的应用前景,例如精密装配、表面擦拭、医疗手术等。通过精确感知和建模接触力,可以提升操作的精度和安全性。此外,该框架还可以应用于机器人教学和仿真,帮助机器人学习复杂的接触式操作技能,并降低开发成本。
📄 摘要(原文)
Contact-rich manipulation tasks, such as wiping and assembly, require accurate perception of contact forces, friction changes, and state transitions that cannot be reliably inferred from vision alone. Despite growing interest in visuo-tactile manipulation, progress is constrained by two persistent limitations: existing datasets are small in scale and narrow in task coverage, and current methods treat tactile signals as passive observations rather than using them to model contact dynamics or enable closed-loop control explicitly. In this paper, we present \textbf{OmniViTac}, a large-scale visuo-tactile-action dataset comprising $21{,}000+$ trajectories across $86$ tasks and $100+$ objects, organized into six physics-grounded interaction patterns. Building on this dataset, we propose \textbf{OmniVTA}, a world-model-based visuo-tactile manipulation framework that integrates four tightly coupled modules: a self-supervised tactile encoder, a two-stream visuo-tactile world model for predicting short-horizon contact evolution, a contact-aware fusion policy for action generation, and a 60Hz reflexive controller that corrects deviations between predicted and observed tactile signals in a closed loop. Real-robot experiments across all six interaction categories show that OmniVTA outperforms existing methods and generalizes well to unseen objects and geometric configurations, confirming the value of combining predictive contact modeling with high-frequency tactile feedback for contact-rich manipulation. All data, models, and code will be made publicly available on the project website at https://mrsecant.github.io/OmniVTA.