Egocentric Visibility-Aware Human Pose Estimation

📄 arXiv: 2602.23618v1 📥 PDF

作者: Peng Dai, Yu Zhang, Yiqiang Feng, Zhen Fan, Yang Zhang

分类: cs.CV

发布日期: 2026-02-27

备注: Conference on Computer Vision and Pattern Recognition 2026


💡 一句话要点

提出EvaPose,解决第一人称视角人体姿态估计中关键点不可见性问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视角 人体姿态估计 关键点可见性 深度学习 数据集 VR/AR

📋 核心要点

  1. 第一人称视角人体姿态估计面临关键点不可见的挑战,现有方法忽略了这一问题,导致可见关键点预测精度下降。
  2. 论文提出EvaPose,显式地利用关键点可见性信息来提升姿态估计的准确性,从而解决不可见性带来的问题。
  3. 论文构建了大规模的Eva-3M数据集,并增强了EMHI数据集,实验证明EvaPose在两个数据集上均取得了SOTA性能。

📝 摘要(中文)

本文针对头戴设备的第一人称视角人体姿态估计(HPE)问题,该问题因关键点不可见性而面临巨大挑战。现有方法通常忽略了不可见性问题,在估计过程中无差别地对待可见和不可见的关键点,从而降低了可见关键点预测的准确性。为此,本文首先提出了一个大规模的、具有可见性标注的第一人称视角HPE数据集Eva-3M,包含超过300万帧,其中43.5万帧带有关键点可见性标签。此外,本文还使用关键点可见性标注增强了现有的EMHI数据集,以进一步促进该方向的研究。同时,本文提出了一种新的、具有可见性感知的第一人称视角HPE方法EvaPose,该方法显式地结合了可见性信息,以提高姿态估计的准确性。大量实验验证了ground-truth可见性标签在第一人称视角HPE设置中的重要价值,并表明本文的EvaPose在Eva-3M和EMHI数据集上都实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决第一人称视角人体姿态估计中,由于自遮挡、视角限制等原因导致的关键点不可见问题。现有方法通常忽略关键点的可见性,平等对待可见和不可见的关键点,这会降低可见关键点的预测精度,影响整体姿态估计的准确性。

核心思路:论文的核心思路是显式地建模关键点的可见性,将可见性信息融入到姿态估计的过程中。通过预测关键点的可见性,并根据可见性调整姿态估计的策略,从而提高可见关键点的预测精度,最终提升整体的姿态估计性能。

技术框架:EvaPose方法的整体框架包含以下几个主要模块:1) 特征提取模块:用于从输入图像中提取人体姿态相关的特征。2) 可见性预测模块:用于预测每个关键点的可见性概率。3) 姿态估计模块:利用提取的特征和预测的可见性信息,估计人体姿态。框架的具体流程是,首先通过特征提取模块提取图像特征,然后将特征输入到可见性预测模块,得到每个关键点的可见性概率。最后,将特征和可见性概率输入到姿态估计模块,得到最终的人体姿态估计结果。

关键创新:论文的关键创新在于显式地将关键点可见性信息融入到人体姿态估计的过程中。与现有方法不同,EvaPose方法不再平等对待可见和不可见的关键点,而是根据关键点的可见性调整姿态估计的策略。这种可见性感知的方法能够更准确地预测可见关键点的位置,从而提高整体的姿态估计性能。

关键设计:在网络结构方面,可见性预测模块可以采用分类网络,输出每个关键点可见或不可见的概率。姿态估计模块可以采用回归网络,预测关键点的坐标。损失函数可以包含姿态估计损失和可见性预测损失,其中姿态估计损失可以使用L1或L2损失,可见性预测损失可以使用交叉熵损失。关键点可见性的ground truth标注是训练的关键。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的EvaPose方法在Eva-3M和EMHI数据集上均取得了state-of-the-art的性能。实验结果表明,显式地建模关键点可见性能够显著提高第一人称视角人体姿态估计的准确性。具体提升幅度未知,需要在论文中查找具体的数值。

🎯 应用场景

该研究成果可广泛应用于虚拟现实(VR)、增强现实(AR)等领域,例如VR游戏、AR导航、远程协作等。通过准确估计第一人称视角下的人体姿态,可以实现更自然、更流畅的人机交互,提升用户体验。此外,该技术还可应用于运动分析、康复训练等领域,为相关应用提供更精准的数据支持。

📄 摘要(原文)

Egocentric human pose estimation (HPE) using a head-mounted device is crucial for various VR and AR applications, but it faces significant challenges due to keypoint invisibility. Nevertheless, none of the existing egocentric HPE datasets provide keypoint visibility annotations, and the existing methods often overlook the invisibility problem, treating visible and invisible keypoints indiscriminately during estimation. As a result, their capacity to accurately predict visible keypoints is compromised. In this paper, we first present Eva-3M, a large-scale egocentric visibility-aware HPE dataset comprising over 3.0M frames, with 435K of them annotated with keypoint visibility labels. Additionally, we augment the existing EMHI dataset with keypoint visibility annotations to further facilitate the research in this direction. Furthermore, we propose EvaPose, a novel egocentric visibility-aware HPE method that explicitly incorporates visibility information to enhance pose estimation accuracy. Extensive experiments validate the significant value of ground-truth visibility labels in egocentric HPE settings, and demonstrate that our EvaPose achieves state-of-the-art performance in both Eva-3M and EMHI datasets.