WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos
作者: Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu
分类: cs.CV
发布日期: 2026-02-25
备注: Project website: https://judyye.github.io/whole-www
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
WHOLE:从自我中心视频中重建世界坐标系下的人手-物体交互
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 自我中心视频 手部姿态估计 物体姿态估计 人机交互 运动重建 生成模型 联合推理
📋 核心要点
- 现有方法在自我中心视频中重建手部和物体交互时,由于遮挡和视野变化,难以准确估计手部和物体姿态。
- WHOLE通过学习手-物体运动的生成先验,实现联合推理,从而更准确地重建手部和物体的运动轨迹。
- 实验表明,WHOLE在手部运动估计、6D物体姿态估计和交互重建方面均优于现有方法,达到SOTA水平。
📝 摘要(中文)
由于交互过程中的严重遮挡以及人移动时物体频繁进出相机视野,自我中心操作视频极具挑战性。现有方法通常孤立地恢复手或物体的姿态,但在交互过程中表现不佳,并且无法处理视野外的情况。此外,它们独立的预测通常导致不一致的手-物体关系。我们提出了WHOLE,一种在给定物体模板的情况下,从自我中心视频中整体重建世界坐标系下手和物体运动的方法。我们的关键见解是学习手-物体运动的生成先验,以联合推理它们的交互。在测试时,预训练的先验被引导生成符合视频观测的轨迹。这种联合生成重建显著优于分别处理手和物体然后进行后处理的方法。WHOLE在手部运动估计、6D物体姿态估计及其相对交互重建方面实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决从自我中心视频中准确重建世界坐标系下手部和物体交互的问题。现有方法主要存在以下痛点:一是由于自我中心视角下严重的遮挡,手部和物体姿态估计困难;二是物体频繁进出视野,导致跟踪困难;三是独立估计手部和物体姿态容易产生不一致的交互关系。
核心思路:论文的核心思路是学习一个手-物体运动的联合生成先验。该先验能够捕捉手部和物体运动之间的内在联系,从而在重建过程中进行联合推理,克服遮挡和视野变化带来的困难,并保证手部和物体交互关系的一致性。通过生成先验引导,模型可以生成符合视频观测的合理轨迹。
技术框架:WHOLE方法包含以下主要阶段:1) 预训练阶段:利用大量手-物体交互数据学习手-物体运动的联合生成先验。2) 测试阶段:给定自我中心视频和物体模板,利用预训练的先验生成手部和物体的运动轨迹,并根据视频观测进行优化,得到最终的重建结果。整体架构是一个生成模型,通过优化生成轨迹来拟合观测数据。
关键创新:最重要的技术创新点在于学习手-物体运动的联合生成先验。与现有方法分别处理手部和物体不同,WHOLE将手部和物体的运动建模为一个整体,从而能够更好地捕捉它们之间的交互关系,提高重建的准确性和一致性。这种联合建模的方式是与现有方法最本质的区别。
关键设计:论文的关键设计包括:1) 生成先验的网络结构:具体网络结构未知,但推测可能采用变分自编码器(VAE)或生成对抗网络(GAN)等生成模型。2) 损失函数:损失函数包含两部分,一部分是生成先验的损失,用于约束生成轨迹的合理性;另一部分是观测损失,用于保证生成轨迹与视频观测的一致性。3) 优化算法:采用优化算法(具体算法未知)在生成先验的约束下,寻找与视频观测最匹配的手部和物体运动轨迹。
🖼️ 关键图片
📊 实验亮点
WHOLE在手部运动估计、6D物体姿态估计以及手-物体交互重建任务上均取得了state-of-the-art的性能。具体性能数据未知,但摘要中明确指出,WHOLE显著优于分别处理手和物体然后进行后处理的方法。这表明联合建模手-物体运动的策略是有效的。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实/增强现实、人机交互等领域。例如,可以帮助机器人更好地理解人类的动作意图,从而更安全、高效地完成任务。在VR/AR中,可以提供更逼真、自然的交互体验。此外,该技术还可以用于分析人类行为,例如运动分析、康复训练等。
📄 摘要(原文)
Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www