UniTac2Pose: A Unified Approach Learned in Simulation for Category-level Visuotactile In-hand Pose Estimation

📄 arXiv: 2509.15934v1 📥 PDF

作者: Mingdong Wu, Long Yang, Jin Liu, Weiyao Huang, Lehong Wu, Zelin Chen, Daolin Ma, Hao Dong

分类: cs.LG

发布日期: 2025-09-19


💡 一句话要点

UniTac2Pose:模拟环境学习的统一框架,用于类别级视觉触觉手内姿态估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手内姿态估计 视觉触觉融合 扩散模型 能量模型 Sim-to-Real 类别级泛化 机器人操作

📋 核心要点

  1. 现有手内物体姿态估计方法精度和泛化性不足,难以处理未见过的CAD模型。
  2. 提出基于能量的扩散模型,统一姿态采样、优化和排序,仅在模拟数据上训练。
  3. 引入渲染-比较架构,提升模拟到真实的迁移性能,实验验证优于传统方法。

📝 摘要(中文)

本文提出了一种新的三阶段框架,用于基于CAD模型进行手内物体姿态的精确估计。该框架对于工业应用和日常任务至关重要,例如工件定位、组件组装以及无缝插入USB连接器等设备。第一阶段采样并预排序姿态候选,第二阶段迭代优化这些候选,最后阶段进行后排序以识别最可能的姿态候选。这些阶段由统一的基于能量的扩散模型控制,该模型仅在模拟数据上训练。该能量模型同时生成梯度以细化姿态估计,并产生能量标量以量化姿态估计的质量。此外,借鉴计算机视觉领域的思想,我们在基于能量的评分网络中加入了一个渲染-比较架构,以显著提高sim-to-real的性能,这在我们的消融研究中得到了证明。综合实验表明,我们的方法优于基于回归、匹配和配准技术的传统基线,同时对先前未见过的CAD模型表现出强大的类别内泛化能力。此外,我们的方法将触觉物体姿态估计、姿态跟踪和不确定性估计集成到一个统一的框架中,从而能够在各种真实条件下实现稳健的性能。

🔬 方法详解

问题定义:论文旨在解决类别级手内物体姿态估计问题,即给定物体的CAD模型和视觉、触觉传感器数据,精确估计物体在手中的位姿。现有方法如回归、特征匹配和配准等,在精度和对未见CAD模型的泛化性方面存在不足,难以满足实际应用需求。

核心思路:论文的核心思路是利用基于能量的扩散模型,将姿态估计问题转化为能量最小化问题。该模型通过学习模拟数据中的能量函数,能够同时生成梯度用于姿态优化,并输出能量值用于评估姿态质量。这种统一的框架能够有效地结合视觉和触觉信息,提高姿态估计的精度和鲁棒性。

技术框架:该方法采用三阶段框架:1) 姿态候选采样与预排序:从姿态空间中采样多个候选姿态,并使用能量模型进行初步排序;2) 姿态迭代优化:利用能量模型生成的梯度信息,迭代优化候选姿态,使其能量值最小化;3) 姿态后排序:对优化后的姿态进行最终排序,选择能量值最低的姿态作为最终估计结果。整个框架由一个统一的基于能量的扩散模型驱动。

关键创新:最重要的技术创新点在于将姿态估计、姿态跟踪和不确定性估计集成到一个统一的基于能量的扩散模型中。此外,借鉴计算机视觉领域的渲染-比较架构,通过比较渲染图像和真实图像,增强了模型对真实场景的适应性,显著提升了sim-to-real的性能。与现有方法相比,该方法无需手动设计特征或复杂的匹配策略,能够更好地利用视觉和触觉信息。

关键设计:能量模型采用扩散模型结构,通过逐步添加噪声并学习逆过程来估计能量函数。损失函数包括能量损失和扩散损失,用于约束能量函数的学习。渲染-比较架构通过渲染模块生成候选姿态的图像,并与真实图像进行比较,计算差异作为能量的一部分。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在手内物体姿态估计任务中优于传统的回归、匹配和配准方法。尤其是在对未见过的CAD模型进行姿态估计时,该方法表现出更强的泛化能力。消融实验证明了渲染-比较架构对提升sim-to-real性能的有效性。此外,该方法能够同时进行姿态估计、姿态跟踪和不确定性估计,具有更强的实用性。

🎯 应用场景

该研究成果可广泛应用于工业自动化、机器人操作等领域。例如,在工业装配中,可以利用该方法精确估计工件的姿态,从而实现机器人对工件的精准抓取和装配。在日常生活中,可以帮助机器人完成诸如插入USB连接器等精细操作。此外,该方法还可以应用于虚拟现实和增强现实等领域,提高人机交互的自然性和流畅性。

📄 摘要(原文)

Accurate estimation of the in-hand pose of an object based on its CAD model is crucial in both industrial applications and everyday tasks, ranging from positioning workpieces and assembling components to seamlessly inserting devices like USB connectors. While existing methods often rely on regression, feature matching, or registration techniques, achieving high precision and generalizability to unseen CAD models remains a significant challenge. In this paper, we propose a novel three-stage framework for in-hand pose estimation. The first stage involves sampling and pre-ranking pose candidates, followed by iterative refinement of these candidates in the second stage. In the final stage, post-ranking is applied to identify the most likely pose candidates. These stages are governed by a unified energy-based diffusion model, which is trained solely on simulated data. This energy model simultaneously generates gradients to refine pose estimates and produces an energy scalar that quantifies the quality of the pose estimates. Additionally, borrowing the idea from the computer vision domain, we incorporate a render-compare architecture within the energy-based score network to significantly enhance sim-to-real performance, as demonstrated by our ablation studies. We conduct comprehensive experiments to show that our method outperforms conventional baselines based on regression, matching, and registration techniques, while also exhibiting strong intra-category generalization to previously unseen CAD models. Moreover, our approach integrates tactile object pose estimation, pose tracking, and uncertainty estimation into a unified framework, enabling robust performance across a variety of real-world conditions.