Estimating Ego-Body Pose from Doubly Sparse Egocentric Video Data

📄 arXiv: 2411.03561v1 📥 PDF

作者: Seunggeun Chi, Pin-Hao Huang, Enna Sachdeva, Hengbo Ma, Karthik Ramani, Kwonjoon Lee

分类: cs.CV

发布日期: 2024-11-05

备注: Accepted at NeurIPS 2024


💡 一句话要点

提出双稀疏自中心视频的自-身体姿态估计方法,提升运动捕捉精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)

关键词: 自-身体姿态估计 自中心视频 稀疏数据 掩码自动编码器 条件扩散模型 时间补全 空间补全

📋 核心要点

  1. 现有自-身体姿态估计方法依赖于时间稠密的传感器数据,成本高且易受噪声干扰。
  2. 提出一种两阶段方法,利用掩码自动编码器进行时间补全,再用条件扩散模型进行空间补全,有效利用稀疏数据。
  3. 在AMASS和Ego-Exo4D数据集上进行了实验,验证了该方法在各种HMD设置下的有效性。

📝 摘要(中文)

本文研究了从自中心视频中估计相机佩戴者身体运动的问题。目前自-身体姿态估计方法依赖于时间稠密的传感器数据,例如来自头部和手部等空间稀疏身体部位的IMU测量。我们提出,即使是时间稀疏的观测,例如在自然或周期性手部运动期间从自中心视频中捕获的间歇性手部姿态,也可以有效地约束整体身体运动。直接应用扩散模型从头部姿态和稀疏手部姿态生成全身姿态会导致次优结果。为了解决这个问题,我们开发了一种两阶段方法,将问题分解为时间补全和空间补全。首先,我们的方法采用掩码自动编码器,通过利用头部姿态序列和间歇性手部姿态之间的时空相关性来推算手部轨迹,并提供不确定性估计。随后,我们采用条件扩散模型,基于头部和手部的时间稠密轨迹生成合理的全身运动,并由来自插补的不确定性估计引导。通过在各种HMD设置下使用AMASS和Ego-Exo4D数据集进行的综合实验,严格测试和验证了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决从自中心视频中,利用时间上稀疏的手部姿态观测,准确估计相机佩戴者的全身姿态的问题。现有方法依赖于时间稠密的IMU数据,但IMU数据易受噪声影响,且需要额外的硬件设备。直接将稀疏的手部姿态信息输入到现有的姿态估计模型中,效果不佳。

核心思路:论文的核心思路是将问题分解为两个阶段:首先进行时间补全,将稀疏的手部姿态补全为时间稠密的轨迹;然后进行空间补全,基于时间稠密的头部和手部轨迹,生成全身姿态。这种分解能够更好地利用时空相关性,并允许使用不同的模型来处理不同的补全任务。

技术框架:该方法包含两个主要阶段:1) 时间补全阶段:使用掩码自动编码器(MAE)来推算手部轨迹。输入包括头部姿态序列和间歇性的手部姿态,MAE学习头部姿态和手部姿态之间的时空相关性,从而预测被掩盖的手部姿态。同时,MAE也提供不确定性估计,用于指导后续的空间补全。2) 空间补全阶段:使用条件扩散模型(CDM)生成全身运动。CDM以时间稠密的头部和手部轨迹作为条件,生成合理的全身姿态序列。来自MAE的不确定性估计被用于指导CDM的生成过程,使得生成的姿态更加准确。

关键创新:该方法的主要创新在于:1) 提出了一种两阶段的补全框架,将问题分解为时间补全和空间补全,能够更好地利用时空相关性。2) 使用掩码自动编码器进行时间补全,并提供不确定性估计,用于指导后续的空间补全。3) 使用条件扩散模型进行空间补全,能够生成更加自然和合理的全身姿态。

关键设计:在时间补全阶段,MAE使用Transformer结构,学习头部姿态和手部姿态之间的时空相关性。损失函数包括重建损失和KL散度损失,用于约束生成的手部姿态和不确定性估计。在空间补全阶段,CDM使用U-Net结构,以时间稠密的头部和手部轨迹作为条件,生成全身姿态。损失函数包括L1损失和对抗损失,用于提高生成姿态的准确性和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在AMASS和Ego-Exo4D数据集上进行了评估,实验结果表明,该方法能够有效地利用稀疏的手部姿态信息,准确地估计全身姿态。与现有方法相比,该方法在姿态估计精度方面取得了显著的提升。具体性能数据未知,但摘要强调了“rigorously tested and validated through comprehensive experiments”。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、人机交互等领域。例如,在VR游戏中,可以利用该方法从用户佩戴的头显和手柄数据中估计用户的全身姿态,从而实现更加沉浸式的游戏体验。此外,该方法还可以用于运动分析、康复训练等领域,通过分析用户的身体运动,提供个性化的指导和建议。

📄 摘要(原文)

We study the problem of estimating the body movements of a camera wearer from egocentric videos. Current methods for ego-body pose estimation rely on temporally dense sensor data, such as IMU measurements from spatially sparse body parts like the head and hands. However, we propose that even temporally sparse observations, such as hand poses captured intermittently from egocentric videos during natural or periodic hand movements, can effectively constrain overall body motion. Naively applying diffusion models to generate full-body pose from head pose and sparse hand pose leads to suboptimal results. To overcome this, we develop a two-stage approach that decomposes the problem into temporal completion and spatial completion. First, our method employs masked autoencoders to impute hand trajectories by leveraging the spatiotemporal correlations between the head pose sequence and intermittent hand poses, providing uncertainty estimates. Subsequently, we employ conditional diffusion models to generate plausible full-body motions based on these temporally dense trajectories of the head and hands, guided by the uncertainty estimates from the imputation. The effectiveness of our method was rigorously tested and validated through comprehensive experiments conducted on various HMD setup with AMASS and Ego-Exo4D datasets.