Mesh-Aware Epipolar Matching for Multi-View Multi-Person 3D Pose Estimation in Basketball
作者: Li Yin, Qin Haobin, Tomohiro Suzuki, Calvin Yeung, Mariko Isogawa, Keisuke Fujii
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
提出Mesh-Aware Epipolar Matching解决篮球比赛中多人3D姿态估计问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D姿态估计 多视角 极线匹配 人体网格恢复 篮球比赛
📋 核心要点
- 团队运动中多人3D姿态估计面临遮挡、外观相似等挑战,且多视角标注数据稀缺,限制了学习方法的泛化能力。
- MAEM框架利用单目3D网格恢复模型,通过两阶段极线匹配策略,实现稳健的跨视角关联和精确的3D姿态重建。
- 实验表明,MAEM在篮球数据集上优于现有训练无关基线,并在室内外场景中取得竞争力的RGB性能,无需目标域训练。
📝 摘要(中文)
本文提出了一种名为Mesh-Aware Epipolar Matching (MAEM) 的训练无关框架,用于多视角多人3D姿态估计,尤其针对团队运动场景。该方法利用单目3D人体网格恢复模型作为前端,并引入基于恢复网格输出的两阶段极线匹配策略。具体而言,该框架结合了基于不相交集并查集的聚类和逐关节三角测量,以实现稳健的跨视角关联和精确的3D姿态重建。在两个公开的多视角篮球数据集上的实验表明,MAEM始终优于现有的训练无关关联基线,并在室内和室外篮球场景中实现了具有竞争力的仅RGB性能。MAEM在SportCenter EPFL上实现了59.8/40.7 mm的MPJPE/PA-MPJPE分数,在Human-M3 Basketball上实现了74.0/51.8 mm的MPJPE/PA-MPJPE分数,突出了密集网格几何结构在跨视角关联中的有效性,而无需目标域训练或微调。
🔬 方法详解
问题定义:论文旨在解决多视角篮球比赛场景下,多人3D姿态估计问题。现有方法受限于2D关键点检测精度和跨视角关联的鲁棒性,尤其是在遮挡严重、队员穿着相似队服的情况下,关联错误率较高。此外,依赖大量标注数据的学习方法难以泛化到新的篮球场景。
核心思路:论文的核心思路是利用单目3D人体网格恢复模型提供的密集几何信息,辅助跨视角关联。通过网格信息,可以更准确地估计人体姿态和位置,从而提高极线匹配的准确性。这种方法避免了对大量标注数据的依赖,提高了泛化能力。
技术框架:MAEM框架主要包含以下几个阶段: 1. 单目3D网格恢复:使用现有的单目3D人体网格恢复模型,从每个视角提取人体网格。 2. 两阶段极线匹配: - 第一阶段:基于不相交集并查集的聚类:利用极线约束和网格信息,将来自不同视角的候选人体进行聚类,形成初步的关联。 - 第二阶段:逐关节三角测量:对每个关节进行三角测量,得到3D坐标,并优化关联结果。 3. 3D姿态重建:基于关联结果和三角测量得到的3D关节坐标,重建完整的多人3D姿态。
关键创新:最重要的技术创新点在于将单目3D网格恢复模型与极线匹配相结合,用于跨视角关联。与传统的基于2D关键点的极线匹配方法相比,MAEM利用了更丰富的几何信息,提高了关联的鲁棒性和准确性。此外,该方法是训练无关的,避免了对大量标注数据的依赖。
关键设计: * 不相交集并查集聚类:使用不相交集并查集算法进行聚类,可以有效地处理多人场景下的关联问题。 * 逐关节三角测量:对每个关节进行三角测量,可以提高3D姿态重建的精度。 * 极线约束:利用极线约束来限制候选匹配的范围,减少搜索空间。
🖼️ 关键图片
📊 实验亮点
MAEM在SportCenter EPFL数据集上取得了59.8/40.7 mm的MPJPE/PA-MPJPE分数,在Human-M3 Basketball数据集上取得了74.0/51.8 mm的MPJPE/PA-MPJPE分数。实验结果表明,MAEM优于现有的训练无关关联基线,并在室内和室外篮球场景中实现了具有竞争力的仅RGB性能,证明了密集网格几何结构在跨视角关联中的有效性。
🎯 应用场景
该研究成果可应用于体育赛事分析、运动员训练、虚拟现实和增强现实等领域。例如,可以利用该技术对篮球比赛进行3D动作捕捉和分析,为教练提供战术指导,帮助运动员提高技术水平。此外,该技术还可以用于创建沉浸式的虚拟现实篮球游戏,提升用户体验。
📄 摘要(原文)
Multi-view multi-person 3D pose estimation in team sports scenarios remains challenging due to player occlusions, appearance similarity caused by team uniforms, and the scarcity of annotated multi-view data, all of which limit the effectiveness and generalization capability of learning-based methods. In contrast, the performance of training-free approaches is inherently constrained by the accuracy of 2D keypoint detection and the robustness of cross-view association. To address these challenges, we propose Mesh-Aware Epipolar Matching (MAEM), a training-free framework for multi-view multi-person 3D pose estimation. Our method employs a monocular 3D human mesh recovery model as the frontend and introduces a two-stage epipolar matching strategy based on the recovered mesh outputs. Specifically, the proposed framework combines disjoint-set-union-based clustering with per-joint triangulation to achieve robust cross-view association and accurate 3D pose reconstruction. Experiments on two public multi-view basketball datasets demonstrate that MAEM consistently outperforms existing training-free association baselines while achieving competitive RGB-only performance in both indoor and outdoor basketball scenarios. MAEM achieves MPJPE/PA-MPJPE scores of 59.8/40.7 mm on SportCenter EPFL and 74.0/51.8 mm on Human-M3 Basketball, highlighting the effectiveness of dense mesh geometry for cross-view association without requiring target-domain training or fine-tuning.