Estimating Body and Hand Motion in an Ego-sensed World
作者: Brent Yi, Vickie Ye, Maya Zheng, Yunqi Li, Lea Müller, Georgios Pavlakos, Yi Ma, Jitendra Malik, Angjoo Kanazawa
分类: cs.CV, cs.AI
发布日期: 2024-10-04 (更新: 2024-12-17)
备注: Project page: https://egoallo.github.io/
💡 一句话要点
EgoAllo:提出一种从头戴设备估计人体和手部运动的系统。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体运动估计 手部运动估计 条件扩散模型 SLAM 头戴设备
📋 核心要点
- 现有方法难以仅从头戴设备数据准确估计人体和手部在全局坐标系下的运动。
- EgoAllo利用条件扩散模型,结合空间和时间不变性准则,从SLAM位姿和图像估计人体姿态和手部参数。
- 实验表明,该方法通过头部运动条件参数化,人体姿态估计精度提升高达18%,手部估计误差降低40%。
📝 摘要(中文)
本文提出EgoAllo,一个从头戴设备进行人体运动估计的系统。仅使用以自我为中心的SLAM位姿和图像,EgoAllo引导条件扩散模型进行采样,以估计3D人体姿态、身高和手部参数,从而捕捉设备佩戴者在场景的allocentric坐标系中的动作。为此,我们的关键见解在于表示:我们提出了空间和时间不变性准则,以提高模型性能,并从中推导出头部运动条件参数化,从而将估计提高了高达18%。我们还展示了我们的系统估计的身体如何改善手部估计:由此产生的运动学和时间约束可以将单帧估计中的世界坐标系误差降低40%。项目主页:https://egoallo.github.io/
🔬 方法详解
问题定义:论文旨在解决从头戴式设备(如AR/VR头显)获取的以自我为中心的图像和SLAM位姿数据中,准确估计人体和手部在全局坐标系下的3D运动的问题。现有方法通常依赖于外部传感器或预定义的动作空间,限制了其在真实场景中的应用。此外,仅依赖单帧图像进行手部估计容易产生漂移和不一致性。
核心思路:论文的核心思路是利用条件扩散模型,并结合空间和时间不变性准则,从以自我为中心的SLAM位姿和图像中推断出人体和手部的3D运动。通过引入头部运动条件参数化,可以更好地利用头部运动信息来约束人体姿态估计。同时,利用估计的人体姿态作为先验知识,可以改善手部运动估计的准确性和一致性。
技术框架:EgoAllo系统主要包含以下几个模块:1) SLAM位姿估计:利用头戴设备获取的图像数据进行SLAM,得到以自我为中心的相机位姿。2) 人体姿态估计:使用条件扩散模型,以SLAM位姿和图像作为条件,估计人体3D姿态和身高。关键在于头部运动条件参数化,即利用头部运动信息来约束人体姿态估计。3) 手部参数估计:利用估计的人体姿态作为先验知识,结合单帧图像信息,估计手部参数。通过运动学和时间约束,减少手部估计的漂移和不一致性。
关键创新:论文的关键创新在于:1) 提出了空间和时间不变性准则,用于提高模型性能。2) 提出了头部运动条件参数化方法,显著提高了人体姿态估计的准确性。3) 利用估计的人体姿态作为先验知识,改善了手部运动估计的准确性和一致性。与现有方法相比,EgoAllo无需外部传感器或预定义的动作空间,可以直接从头戴设备数据中估计人体和手部的3D运动。
关键设计:在人体姿态估计模块中,使用了条件扩散模型,并引入了头部运动条件参数化。具体来说,将头部运动信息编码为一个向量,并将其作为扩散模型的条件输入。在手部参数估计模块中,利用估计的人体姿态作为先验知识,并结合运动学和时间约束,设计了一个损失函数,用于优化手部参数。损失函数包括图像重建损失、运动学约束损失和时间一致性损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EgoAllo在人体姿态估计方面取得了显著的提升,通过头部运动条件参数化,估计精度提高了高达18%。同时,EgoAllo能够有效改善手部估计的准确性和一致性,将单帧估计中的世界坐标系误差降低了40%。这些结果表明,EgoAllo是一种有效的从头戴设备估计人体和手部运动的系统。
🎯 应用场景
EgoAllo在AR/VR、人机交互、远程协作等领域具有广泛的应用前景。例如,在AR/VR游戏中,可以利用EgoAllo准确估计玩家的身体和手部运动,从而实现更自然、更沉浸式的交互体验。在远程协作场景中,可以利用EgoAllo捕捉用户的动作,并将其传输到远程端,从而实现更真实的远程协作。
📄 摘要(原文)
We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture a device wearer's actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve hand estimation: the resulting kinematic and temporal constraints can reduce world-frame errors in single-frame estimates by 40%. Project page: https://egoallo.github.io/