ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
作者: Hongyu Li, James Akl, Srinath Sridhar, Tye Brady, Taskin Padir
分类: cs.RO, cs.CV
发布日期: 2025-04-17
备注: Accepted by ICRA 2025
💡 一句话要点
ViTa-Zero:基于视觉与触觉的零样本物体6D位姿估计
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6D位姿估计 视觉触觉融合 零样本学习 机器人操作 物理约束
📋 核心要点
- 现有视觉触觉位姿估计方法泛化性差,主要因为视觉触觉数据获取困难,模型训练受限。
- ViTa-Zero利用视觉模型作为主干,结合触觉和本体感受信息进行物理约束下的可行性验证和优化。
- 实验表明,ViTa-Zero在真实机器人场景中显著提升了6D位姿估计的准确性和鲁棒性,优于纯视觉方法。
📝 摘要(中文)
本文提出了一种名为ViTa-Zero的零样本视觉触觉物体6D位姿估计框架。该方法以视觉模型为骨干,并基于触觉和本体感受信息导出的物理约束进行可行性检查和测试时优化。具体而言,我们将夹爪-物体交互建模为弹簧-质量系统,其中触觉传感器产生吸引力,而本体感受产生排斥力。通过在真实机器人设置上的实验验证了该框架的有效性,证明了其在各种视觉骨干网络和操作场景(包括抓取、物体拾取和双手动手)中的有效性。与纯视觉模型相比,我们的方法克服了一些严重的失败模式,同时跟踪了手中的物体姿态。实验结果表明,我们的方法在ADD-S的AUC上平均提高了55%,在ADD上提高了60%,并且与FoundationPose相比,位置误差降低了80%。
🔬 方法详解
问题定义:物体6D位姿估计是机器人操作的关键问题,尤其是在操作任务中。现有的视觉触觉方法依赖于大量的标注数据进行训练,导致模型在未见过的数据上泛化能力较差。缺乏足够的多样化视觉触觉数据是制约现有方法性能提升的主要瓶颈。
核心思路:ViTa-Zero的核心思路是利用预训练的视觉模型提取视觉特征,并结合触觉和本体感受信息,通过物理约束来优化位姿估计结果。这种方法避免了对大量视觉触觉数据的依赖,实现了零样本学习。通过模拟gripper-object交互的物理过程,可以有效地纠正视觉模型的错误预测。
技术框架:ViTa-Zero框架主要包含以下几个阶段:1) 利用视觉模型(如FoundationPose)进行初始位姿估计;2) 从触觉传感器和本体感受器获取数据;3) 将gripper-object交互建模为弹簧-质量系统,其中触觉传感器产生吸引力,本体感受器产生排斥力;4) 基于物理约束,对初始位姿估计进行优化,得到最终的6D位姿估计结果。
关键创新:ViTa-Zero的关键创新在于将触觉和本体感受信息融入到位姿估计过程中,并利用物理约束进行优化。与传统的纯视觉方法相比,ViTa-Zero能够更好地处理遮挡、光照变化等问题,提高位姿估计的鲁棒性。此外,该方法实现了零样本学习,无需针对特定物体进行训练。
关键设计:在弹簧-质量系统中,弹簧的劲度和质量的选取是关键参数。论文中可能采用了启发式方法或学习方法来确定这些参数。损失函数的设计需要考虑触觉和本体感受信息的权重,以及位姿估计的误差。具体的网络结构取决于所使用的视觉骨干网络,但通常需要添加一些额外的层来处理触觉和本体感受信息。
🖼️ 关键图片
📊 实验亮点
ViTa-Zero在真实机器人实验中表现出色,与FoundationPose等视觉模型相比,在ADD-S的AUC上平均提高了55%,在ADD上提高了60%,并且位置误差降低了80%。这些结果表明,ViTa-Zero能够有效地利用触觉和本体感受信息来提高位姿估计的准确性和鲁棒性。
🎯 应用场景
ViTa-Zero在机器人操作领域具有广泛的应用前景,例如:自动化装配、物体抓取、双臂协同操作、医疗机器人等。该方法能够提高机器人在复杂环境下的操作能力,降低对人工干预的依赖,实现更智能、更高效的自动化生产。
📄 摘要(原文)
Object 6D pose estimation is a critical challenge in robotics, particularly for manipulation tasks. While prior research combining visual and tactile (visuotactile) information has shown promise, these approaches often struggle with generalization due to the limited availability of visuotactile data. In this paper, we introduce ViTa-Zero, a zero-shot visuotactile pose estimation framework. Our key innovation lies in leveraging a visual model as its backbone and performing feasibility checking and test-time optimization based on physical constraints derived from tactile and proprioceptive observations. Specifically, we model the gripper-object interaction as a spring-mass system, where tactile sensors induce attractive forces, and proprioception generates repulsive forces. We validate our framework through experiments on a real-world robot setup, demonstrating its effectiveness across representative visual backbones and manipulation scenarios, including grasping, object picking, and bimanual handover. Compared to the visual models, our approach overcomes some drastic failure modes while tracking the in-hand object pose. In our experiments, our approach shows an average increase of 55% in AUC of ADD-S and 60% in ADD, along with an 80% lower position error compared to FoundationPose.