Efficient 2D to Full 3D Human Pose Uplifting including Joint Rotations

📄 arXiv: 2504.09953v1 📥 PDF

作者: Katja Ludwig, Yuliia Oksymets, Robin Schön, Daniel Kienzle, Rainer Lienhart

分类: cs.CV

发布日期: 2025-04-14

备注: accepted at CVSports@CVPR'25


💡 一句话要点

提出高效的2D到3D人体姿态提升模型,直接估计包含关节旋转的完整3D姿态。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体姿态估计 2D到3D提升 关节旋转估计 深度学习 体育分析

📋 核心要点

  1. 现有HMR模型在关节定位精度上存在不足,而结合3D HPE与逆运动学的方法计算成本过高。
  2. 该论文提出一种2D到3D的姿态提升模型,通过单次前向传播直接估计包含关节旋转的3D人体姿态。
  3. 实验结果表明,该模型在旋转估计方面达到SOTA,速度比IK方法快150倍,且关节定位精度优于HMR模型。

📝 摘要(中文)

本文提出了一种新颖的2D到3D人体姿态提升模型,该模型能够直接估计3D人体姿态,包括关节旋转,仅需一次前向传播。在体育分析中,精确捕捉身体关节的3D位置和旋转对于理解运动员的生物力学至关重要。虽然人体网格恢复(HMR)模型可以估计关节旋转,但其关节定位精度通常低于3D人体姿态估计(HPE)模型。最近的研究通过将3D HPE模型与逆运动学(IK)相结合来估计关节位置和旋转,但IK计算成本高昂。为了解决这个问题,我们研究了多种旋转表示、损失函数和训练策略——无论是否可以访问真实旋转数据。我们的模型在旋转估计方面达到了最先进的精度,比基于IK的方法快150倍,并且在关节定位精度上超过了HMR模型。

🔬 方法详解

问题定义:现有方法在3D人体姿态估计中,要么关节定位精度不足(HMR),要么计算复杂度过高(3D HPE + IK)。HMR模型虽然可以估计关节旋转,但在关节定位精度上不如3D HPE模型。而结合3D HPE模型与逆运动学(IK)的方法虽然可以同时估计关节位置和旋转,但IK的计算成本非常高,限制了其在实时应用中的使用。

核心思路:该论文的核心思路是设计一个可以直接从2D图像估计3D人体姿态(包括关节旋转)的模型,避免使用计算量大的逆运动学方法。通过端到端的方式学习2D到3D的映射关系,从而提高效率和精度。

技术框架:该模型接收2D人体姿态作为输入,通过一个神经网络直接预测3D人体姿态,包括关节位置和旋转。整体流程简单高效,避免了复杂的中间步骤。模型结构细节(如具体网络层类型、数量等)在论文中可能有所描述,但摘要中未明确提及。

关键创新:该论文的关键创新在于提出了一种能够直接估计3D人体姿态(包括关节旋转)的2D到3D提升模型,无需依赖逆运动学。这与传统方法需要先估计3D关节位置,再通过IK计算关节旋转的方式有本质区别,显著提高了计算效率。

关键设计:论文研究了多种旋转表示方法(具体类型未知),并设计了合适的损失函数来训练模型。训练策略包括有监督(使用真实旋转数据)和无监督(不使用真实旋转数据)两种方式。具体的网络结构和参数设置未知,但损失函数的设计是关键,需要平衡关节位置和旋转的估计精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在旋转估计方面达到了最先进的精度,并且计算速度比基于IK的方法快150倍。此外,在关节定位精度方面,该模型也优于HMR模型。这些实验结果表明,该模型在效率和精度方面都具有显著优势,为3D人体姿态估计领域带来了重要的进展。

🎯 应用场景

该研究成果可广泛应用于体育分析、虚拟现实、人机交互、动作捕捉等领域。在体育分析中,可以帮助教练员和运动员更准确地分析运动姿态,优化训练方案。在虚拟现实和人机交互中,可以实现更自然、更逼真的人体动作模拟。该技术还有潜力应用于医疗康复、游戏开发等领域。

📄 摘要(原文)

In sports analytics, accurately capturing both the 3D locations and rotations of body joints is essential for understanding an athlete's biomechanics. While Human Mesh Recovery (HMR) models can estimate joint rotations, they often exhibit lower accuracy in joint localization compared to 3D Human Pose Estimation (HPE) models. Recent work addressed this limitation by combining a 3D HPE model with inverse kinematics (IK) to estimate both joint locations and rotations. However, IK is computationally expensive. To overcome this, we propose a novel 2D-to-3D uplifting model that directly estimates 3D human poses, including joint rotations, in a single forward pass. We investigate multiple rotation representations, loss functions, and training strategies - both with and without access to ground truth rotations. Our models achieve state-of-the-art accuracy in rotation estimation, are 150 times faster than the IK-based approach, and surpass HMR models in joint localization precision.