6D Object Pose Tracking in Internet Videos for Robotic Manipulation
作者: Georgy Ponimatkin, Martin Cífka, Tomáš Souček, Médéric Fourmy, Yann Labbé, Vladimir Petrik, Josef Sivic
分类: cs.CV, cs.RO
发布日期: 2025-03-13
备注: Accepted to ICLR 2025. Project page available at https://ponimatkin.github.io/wildpose/
💡 一句话要点
提出一种无需先验知识的互联网视频6D物体位姿跟踪方法,用于机器人操作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 6D位姿估计 物体跟踪 机器人操作 互联网视频 CAD模型检索
📋 核心要点
- 现有6D位姿估计方法在处理互联网视频时,面临拍摄条件不受控、物体运动细微以及物体网格未知等挑战。
- 提出一种新方法,无需物体先验知识即可估计图像中物体的6D位姿,通过检索CAD模型并与图像对齐实现。
- 实验表明,该方法在多个数据集上优于现有方法,并成功应用于机器人操作和具身人工智能等场景。
📝 摘要(中文)
本文旨在从互联网教学视频中提取被操作物体随时间一致的6D位姿轨迹。由于拍摄条件不受控制、物体运动细微但动态,以及被操作物体的精确网格未知,这对当前的6D位姿估计方法提出了挑战。为了应对这些挑战,我们提出了以下贡献。首先,我们开发了一种新方法,可以在不知道物体本身先验知识的情况下,估计输入图像中任何物体的6D位姿。该方法通过以下步骤实现:(i)从大型模型数据库中检索与所描绘物体相似的CAD模型;(ii)将检索到的CAD模型与输入图像进行6D对齐;(iii)确定物体相对于场景的绝对尺度。其次,我们通过仔细跟踪视频帧中的检测到的物体,从互联网视频中提取平滑的6D物体轨迹。然后,通过轨迹优化将提取的物体轨迹重新定位到机器人操作器的配置空间中。第三,我们在YCB-V和HOPE-Video数据集以及一个新的教学视频数据集上彻底评估和消融我们的6D位姿估计方法,该数据集手动标注了近似的6D物体轨迹。我们证明了相对于现有最先进的RGB 6D位姿估计方法的显著改进。最后,我们表明,从互联网视频中估计的6D物体运动可以转移到虚拟模拟器和真实世界设置中的7轴机器人操作器。我们还成功地将我们的方法应用于从EPIC-KITCHENS数据集拍摄的以自我为中心的视频,展示了具身人工智能应用的潜力。
🔬 方法详解
问题定义:论文旨在解决从互联网教学视频中准确且鲁棒地估计被操作物体的6D位姿轨迹的问题。现有方法通常依赖于已知物体的精确3D模型,或者在受控环境下进行训练,难以适应互联网视频中复杂多变的场景,例如光照变化、遮挡、以及未知的物体形状和纹理。这些因素导致现有方法在互联网视频上的性能显著下降。
核心思路:论文的核心思路是利用大规模CAD模型数据库,通过检索与目标物体相似的模型,并将其与图像进行6D对齐,从而实现无需先验知识的6D位姿估计。这种方法避免了对目标物体精确模型的依赖,提高了对未知物体的适应性。同时,通过轨迹优化,保证了估计位姿的时间一致性。
技术框架:整体框架包含以下几个主要阶段:1) CAD模型检索:从大规模CAD模型数据库中检索与输入图像中的物体相似的模型。2) 6D位姿对齐:将检索到的CAD模型与输入图像进行6D位姿对齐,估计物体在图像中的位置和姿态。3) 尺度估计:确定物体相对于场景的绝对尺度。4) 轨迹跟踪与优化:在视频帧之间跟踪物体,并使用轨迹优化方法平滑6D位姿轨迹。
关键创新:该方法最重要的创新点在于无需目标物体的先验知识即可进行6D位姿估计。这使得该方法能够应用于更广泛的场景,特别是互联网视频中常见的未知物体。此外,结合CAD模型检索和6D位姿对齐,有效地利用了现有的3D模型资源,提高了位姿估计的准确性和鲁棒性。
关键设计:在CAD模型检索阶段,使用了基于图像特征的相似度度量,例如SIFT或深度学习特征,来选择与目标物体最相似的模型。在6D位姿对齐阶段,采用了迭代最近点(ICP)算法或其他优化方法,最小化CAD模型投影与图像特征之间的距离。轨迹优化阶段,使用了卡尔曼滤波或平滑样条等方法,保证位姿轨迹的时间一致性。
🖼️ 关键图片
📊 实验亮点
该方法在YCB-V和HOPE-Video数据集以及一个新的教学视频数据集上进行了评估,结果表明,该方法显著优于现有的RGB 6D位姿估计方法。具体性能数据未知,但摘要强调了“显著改进”。此外,该方法成功地应用于7轴机器人操作器,验证了其在实际应用中的可行性。
🎯 应用场景
该研究成果可广泛应用于机器人操作、增强现实、虚拟现实和具身人工智能等领域。例如,机器人可以根据互联网教学视频学习操作技能,增强现实应用可以将虚拟物体与真实场景进行精确对齐,具身人工智能系统可以理解人类在视频中的操作行为。
📄 摘要(原文)
We seek to extract a temporally consistent 6D pose trajectory of a manipulated object from an Internet instructional video. This is a challenging set-up for current 6D pose estimation methods due to uncontrolled capturing conditions, subtle but dynamic object motions, and the fact that the exact mesh of the manipulated object is not known. To address these challenges, we present the following contributions. First, we develop a new method that estimates the 6D pose of any object in the input image without prior knowledge of the object itself. The method proceeds by (i) retrieving a CAD model similar to the depicted object from a large-scale model database, (ii) 6D aligning the retrieved CAD model with the input image, and (iii) grounding the absolute scale of the object with respect to the scene. Second, we extract smooth 6D object trajectories from Internet videos by carefully tracking the detected objects across video frames. The extracted object trajectories are then retargeted via trajectory optimization into the configuration space of a robotic manipulator. Third, we thoroughly evaluate and ablate our 6D pose estimation method on YCB-V and HOPE-Video datasets as well as a new dataset of instructional videos manually annotated with approximate 6D object trajectories. We demonstrate significant improvements over existing state-of-the-art RGB 6D pose estimation methods. Finally, we show that the 6D object motion estimated from Internet videos can be transferred to a 7-axis robotic manipulator both in a virtual simulator as well as in a real world set-up. We also successfully apply our method to egocentric videos taken from the EPIC-KITCHENS dataset, demonstrating potential for Embodied AI applications.