Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

📄 arXiv: 2503.11652v2 📥 PDF

作者: Hiroyasu Akada, Jian Wang, Vladislav Golyanik, Christian Theobalt

分类: cs.CV

发布日期: 2025-03-14 (更新: 2025-08-22)

备注: Project page: https://4dqv.mpi-inf.mpg.de/EgoRear/

期刊: International Conference on Computer Vision 2025 (ICCV 2025)


💡 一句话要点

提出基于后置摄像头的Transformer方法,提升自中心3D人体姿态估计精度。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自中心姿态估计 3D人体姿态估计 多视角融合 Transformer网络 后置摄像头 深度学习 人体跟踪

📋 核心要点

  1. 现有自中心3D人体姿态估计方法在自遮挡和视野受限情况下表现不佳,尤其是在头部向上倾斜等常见动作中。
  2. 论文提出一种基于Transformer的新方法,通过融合多视角信息和热图不确定性,优化2D关节热图估计,从而提升3D姿态跟踪精度。
  3. 实验表明,结合后置摄像头的新配置显著优于仅使用前置摄像头,提出的方法在MPJPE指标上优于现有方法超过10%。

📝 摘要(中文)

本文研究了后置摄像头在自中心3D人体姿态估计中的作用。现有方法在用户抬头等常见动作中,由于自遮挡和视野范围限制,难以准确估计3D姿态。本文指出,现有头戴式设备(HMD)设计忽略了身体后部的信息,而这些信息对于3D重建至关重要。研究表明,简单地将后置摄像头视图添加到前置输入并非最优,因为现有方法依赖于独立的2D关节检测器,缺乏有效的多视角融合。为此,本文提出了一种新的基于Transformer的方法,利用多视角信息和热图不确定性来优化2D关节热图估计,从而改进3D姿态跟踪。此外,本文还引入了两个新的大规模数据集Ego4View-Syn和Ego4View-RW,用于后视角的评估。实验结果表明,带有后视角的摄像头配置比仅使用前置摄像头配置更能支持3D姿态跟踪,并且提出的方法显著优于当前最先进的方法(MPJPE指标提升超过10%)。

🔬 方法详解

问题定义:现有自中心3D人体姿态估计方法,主要依赖于头戴设备前置摄像头,在面对自遮挡、视野范围有限以及头部向上倾斜等常见动作时,难以准确估计3D人体姿态。现有方法对身体后部信息的忽略,以及缺乏有效的多视角信息融合机制,是导致性能瓶颈的关键因素。

核心思路:论文的核心思路是利用后置摄像头获取身体后部的视觉信息,并设计一种能够有效融合多视角信息的模型,从而克服自遮挡和视野限制,提升3D人体姿态估计的准确性。通过引入后置摄像头,可以提供更多关于身体后部的可见信息,从而减少估计的不确定性。

技术框架:整体框架包含以下几个主要阶段:1) 多视角图像输入:同时使用前置和后置摄像头捕获的图像作为输入。2) 2D关节热图估计:使用2D关节检测器对每个视角的图像进行处理,生成2D关节热图。3) 多视角信息融合:利用Transformer网络,将来自不同视角的2D关节热图进行融合,并根据热图的不确定性进行加权。4) 3D姿态估计:基于融合后的2D关节信息,估计3D人体姿态。

关键创新:最重要的技术创新点在于Transformer网络在多视角信息融合中的应用。与现有方法依赖于独立的2D关节检测器不同,该方法通过Transformer学习不同视角之间的关联性,并利用热图的不确定性来指导融合过程。这种方法能够更有效地利用多视角信息,从而提高3D姿态估计的准确性。

关键设计:Transformer网络被用于融合来自不同视角的2D关节热图。热图的不确定性被用来作为Transformer的注意力权重,从而使模型更加关注可靠的关节信息。损失函数的设计也考虑了多视角一致性,鼓励模型生成在不同视角下一致的3D姿态估计结果。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结合后置摄像头的新配置显著优于仅使用前置摄像头。提出的方法在两个新的大规模数据集Ego4View-Syn和Ego4View-RW上进行了评估,并在MPJPE指标上优于当前最先进的方法超过10%。这些结果验证了后置摄像头在自中心3D人体姿态估计中的有效性,以及提出的Transformer方法的优越性。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、人机交互、运动分析、游戏等领域。通过更准确的自中心3D人体姿态估计,可以提升VR/AR体验的沉浸感和交互性,为运动分析提供更精确的数据,并为游戏开发提供更逼真的人物动作。

📄 摘要(原文)

Egocentric 3D human pose estimation has been actively studied using cameras installed in front of a head-mounted device (HMD). While frontal placement is the optimal and the only option for some tasks, such as hand tracking, it remains unclear if the same holds for full-body tracking due to self-occlusion and limited field-of-view coverage. Notably, even the state-of-the-art methods often fail to estimate accurate 3D poses in many scenarios, such as when HMD users tilt their heads upward -- a common motion in human activities. A key limitation of existing HMD designs is their neglect of the back of the body, despite its potential to provide crucial 3D reconstruction cues. Hence, this paper investigates the usefulness of rear cameras for full-body tracking. We also show that simply adding rear views to the frontal inputs is not optimal for existing methods due to their dependence on individual 2D joint detectors without effective multi-view integration. To address this issue, we propose a new transformer-based method that refines 2D joint heatmap estimation with multi-view information and heatmap uncertainty, thereby improving 3D pose tracking. Also, we introduce two new large-scale datasets, Ego4View-Syn and Ego4View-RW, for a rear-view evaluation. Our experiments show that the new camera configurations with back views provide superior support for 3D pose tracking compared to only frontal placements. The proposed method achieves significant improvement over the current state of the art (>10% on MPJPE). The source code, trained models, and datasets are available on our project page at https://4dqv.mpi-inf.mpg.de/EgoRear/.