Multi-person Physics-based Pose Estimation for Combat Sports
作者: Hossein Feiz, David Labbé, Thomas Romeas, Jocelyn Faubert, Sheldon Andrews
分类: cs.CV
发布日期: 2025-04-11 (更新: 2025-07-07)
💡 一句话要点
提出基于物理的多人姿态估计框架,用于提升格斗运动场景下的3D姿态估计精度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 3D姿态估计 多人姿态估计 物理建模 运动学优化 格斗运动 多视角视觉 Transformer
📋 核心要点
- 现有方法在格斗运动等复杂场景下,难以处理快速运动、遮挡和多人交互等问题,导致3D姿态估计精度不高。
- 该方法融合多视角2D姿态跟踪、运动学优化和基于物理的轨迹优化,提升姿态估计的真实性和鲁棒性。
- 实验结果表明,该方法在格斗运动数据集上取得了state-of-the-art的性能,并发布了相关数据集。
📝 摘要(中文)
本文提出了一种新颖的框架,用于在使用稀疏多相机设置的格斗运动中进行精确的3D人体姿态估计。我们的方法集成了鲁棒的多视角2D姿态跟踪,该跟踪通过基于Transformer的自上而下的方法实现,采用极几何约束和长期视频对象分割,以实现跨视图的一致身份跟踪。通过加权三角测量和样条平滑获得初始3D姿态,然后通过运动学优化来细化姿态精度。我们通过引入基于物理的多人轨迹优化步骤,进一步增强了姿态的真实性和鲁棒性,有效地解决了快速运动、遮挡和密切交互等挑战。在包括精英拳击片段的新基准在内的各种数据集上的实验结果表明,该方法达到了最先进的性能。此外,我们发布了全面的带注释的视频数据集,以促进未来在格斗运动中多人姿态估计方面的研究。
🔬 方法详解
问题定义:论文旨在解决格斗运动场景下,由于快速运动、遮挡、多人交互等因素导致的3D人体姿态估计精度不高的问题。现有方法难以有效处理这些复杂情况,导致姿态估计结果不准确,缺乏真实感。
核心思路:论文的核心思路是结合多视角信息、运动学约束和物理规律,通过多阶段优化来提升3D姿态估计的精度和鲁棒性。首先利用多视角2D姿态跟踪提供初始估计,然后通过运动学优化进行姿态精细化,最后引入基于物理的轨迹优化来保证姿态的真实性和一致性。
技术框架:该方法的技术框架主要包含以下几个阶段: 1. 多视角2D姿态跟踪:使用基于Transformer的自上而下方法进行多视角2D姿态跟踪,并利用极几何约束和长期视频对象分割来保证跨视角身份跟踪的一致性。 2. 初始3D姿态估计:通过加权三角测量和样条平滑,将多视角2D姿态估计结果融合为初始3D姿态。 3. 运动学优化:利用人体运动学模型对初始3D姿态进行优化,提高姿态的准确性。 4. 基于物理的轨迹优化:引入基于物理的轨迹优化,考虑人体运动的物理规律,进一步提高姿态的真实性和鲁棒性,尤其是在存在遮挡和多人交互的情况下。
关键创新:该方法最重要的技术创新点在于引入了基于物理的多人轨迹优化步骤。与传统的运动学优化方法不同,该方法考虑了人体运动的物理规律,例如动量守恒、能量守恒等,从而可以更好地处理快速运动、遮挡和多人交互等复杂情况,提高姿态估计的真实性和鲁棒性。
关键设计:论文中关于基于物理的轨迹优化步骤的具体设计细节未知。但可以推测,可能涉及到定义合适的物理模型,例如质点模型、刚体模型等,并设计相应的损失函数来约束姿态的运动轨迹,使其符合物理规律。此外,如何有效地处理多人交互时的碰撞检测和避免穿透也是一个关键的设计问题,具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
该方法在格斗运动数据集上取得了state-of-the-art的性能,表明其在处理快速运动、遮挡和多人交互等复杂情况方面的有效性。论文还发布了全面的带注释的视频数据集,为未来相关研究提供了宝贵资源。具体的性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于体育赛事分析、运动员训练辅助、动作捕捉、虚拟现实等领域。通过精确的3D姿态估计,可以分析运动员的技术动作,评估训练效果,并为虚拟现实应用提供更真实的人体运动模型。此外,该方法还可以扩展到其他需要进行多人姿态估计的场景,例如人群行为分析、智能监控等。
📄 摘要(原文)
We propose a novel framework for accurate 3D human pose estimation in combat sports using sparse multi-camera setups. Our method integrates robust multi-view 2D pose tracking via a transformer-based top-down approach, employing epipolar geometry constraints and long-term video object segmentation for consistent identity tracking across views. Initial 3D poses are obtained through weighted triangulation and spline smoothing, followed by kinematic optimization to refine pose accuracy. We further enhance pose realism and robustness by introducing a multi-person physics-based trajectory optimization step, effectively addressing challenges such as rapid motions, occlusions, and close interactions. Experimental results on diverse datasets, including a new benchmark of elite boxing footage, demonstrate state-of-the-art performance. Additionally, we release comprehensive annotated video datasets to advance future research in multi-person pose estimation for combat sports.