WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation
作者: Tianjian Jiang, Johsan Billingham, Sebastian Müksch, Juan Zarate, Nicolas Evans, Martin R. Oswald, Marc Pollefeys, Otmar Hilliges, Manuel Kaufmann, Jie Song
分类: cs.CV
发布日期: 2025-01-06 (更新: 2025-01-20)
💡 一句话要点
WorldPose:提出世界杯多视角3D人体姿态估计数据集,挑战现有算法。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D人体姿态估计 多视角几何 数据集 世界杯 体育分析 运动捕捉 全局姿态估计
📋 核心要点
- 现有数据集在多人全局姿态估计方面存在局限性,主要集中于单人或室内环境,缺乏大规模、真实场景的数据。
- WorldPose利用世界杯的多视角摄像机数据,通过静态多视角和运动校准技术,构建大规模、高精度的3D人体姿态数据集。
- 实验表明,WorldPose数据集对现有全局姿态估计方法构成挑战,为体育分析等领域的研究提供了新的可能性。
📝 摘要(中文)
本文提出了WorldPose,一个用于推进野外多人全局姿态估计研究的新数据集,其素材来源于2022年FIFA世界杯。以往的数据集主要关注局部姿态,通常局限于单人或受限的室内环境。而本次研究利用世界杯部署的基础设施,可以访问不同体育场馆中多个固定和移动摄像机的拍摄画面。研究利用高清摄像机的静态多视角设置,以前所未有的精度恢复了超过1.75英亩捕获区域内的3D球员姿态和运动。然后,利用捕获的球员运动和场地标记来校准移动的广播摄像机。最终数据集包含超过80个序列,约250万个3D姿态,总行程超过120公里。此外,对全局姿态估计的SOTA方法进行了深入分析。实验表明,WorldPose对现有的多人技术提出了挑战,支持该领域和其他领域(如体育分析)的新研究。所有姿态注释(SMPL格式)、广播摄像机参数和素材将发布用于学术研究。
🔬 方法详解
问题定义:现有全局3D人体姿态估计方法在真实、大规模、多人场景下表现不佳,缺乏高质量的训练数据。现有数据集通常规模较小,场景受限,难以泛化到复杂的野外环境,例如大型体育赛事。
核心思路:利用世界杯赛事中部署的多视角高清摄像机,通过多视角几何重建技术获取高精度的3D人体姿态。同时,利用球员运动和场地标记校准移动的广播摄像机,从而构建一个包含固定和移动摄像机数据的大规模数据集。
技术框架:该方法主要包含以下几个阶段:1) 利用多个固定高清摄像机的多视角数据,重建球员的3D姿态;2) 利用球员的运动和场地标记,校准移动的广播摄像机;3) 将重建的3D姿态和校准后的摄像机参数整合,构建WorldPose数据集;4) 在WorldPose数据集上评估现有全局姿态估计方法的性能。
关键创新:该研究的关键创新在于利用真实的大型体育赛事场景,构建了一个大规模、高精度的3D人体姿态数据集。与现有数据集相比,WorldPose具有更大的规模、更复杂的场景和更精确的姿态标注。此外,该研究还提出了一种利用球员运动和场地标记校准移动摄像机的方法。
关键设计:姿态标注采用SMPL格式,方便研究人员使用。数据集包含80多个序列,约250万个3D姿态,总行程超过120公里。研究人员对现有的SOTA方法进行了深入分析,并提供了详细的实验结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WorldPose数据集对现有的全局姿态估计方法提出了显著的挑战。在WorldPose数据集上,现有方法的性能与在其他数据集上的性能相比有所下降,表明该数据集的复杂性和真实性更高。该研究为未来的研究方向提供了重要的参考,并为开发更先进的全局姿态估计算法奠定了基础。
🎯 应用场景
WorldPose数据集可广泛应用于体育分析、运动捕捉、虚拟现实、增强现实等领域。例如,可以利用该数据集进行运动员行为分析、战术分析、运动模拟和训练等。此外,该数据集还可以用于开发更鲁棒、更准确的全局姿态估计算法,从而提升相关应用的用户体验。
📄 摘要(原文)
We present WorldPose, a novel dataset for advancing research in multi-person global pose estimation in the wild, featuring footage from the 2022 FIFA World Cup. While previous datasets have primarily focused on local poses, often limited to a single person or in constrained, indoor settings, the infrastructure deployed for this sporting event allows access to multiple fixed and moving cameras in different stadiums. We exploit the static multi-view setup of HD cameras to recover the 3D player poses and motions with unprecedented accuracy given capture areas of more than 1.75 acres. We then leverage the captured players' motions and field markings to calibrate a moving broadcasting camera. The resulting dataset comprises more than 80 sequences with approx 2.5 million 3D poses and a total traveling distance of over 120 km. Subsequently, we conduct an in-depth analysis of the SOTA methods for global pose estimation. Our experiments demonstrate that WorldPose challenges existing multi-person techniques, supporting the potential for new research in this area and others, such as sports analysis. All pose annotations (in SMPL format), broadcasting camera parameters and footage will be released for academic research purposes.