Mesh-Aware Epipolar Matching for Multi-View Multi-Person 3D Pose Estimation in Basketball

作者: Li Yin, Qin Haobin, Tomohiro Suzuki, Calvin Yeung, Mariko Isogawa, Keisuke Fujii

分类: cs.CV

发布日期: 2026-05-28

💡 一句话要点

提出Mesh-Aware Epipolar Matching解决篮球比赛中多人3D姿态估计问题

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D姿态估计 多视角 极线匹配 人体网格恢复 篮球比赛

📋 核心要点

团队运动中多人3D姿态估计面临遮挡、外观相似等挑战，且多视角标注数据稀缺，限制了学习方法的泛化能力。
MAEM框架利用单目3D网格恢复模型，通过两阶段极线匹配策略，实现稳健的跨视角关联和精确的3D姿态重建。
实验表明，MAEM在篮球数据集上优于现有训练无关基线，并在室内外场景中取得竞争力的RGB性能，无需目标域训练。

📝 摘要（中文）

本文提出了一种名为Mesh-Aware Epipolar Matching (MAEM) 的训练无关框架，用于多视角多人3D姿态估计，尤其针对团队运动场景。该方法利用单目3D人体网格恢复模型作为前端，并引入基于恢复网格输出的两阶段极线匹配策略。具体而言，该框架结合了基于不相交集并查集的聚类和逐关节三角测量，以实现稳健的跨视角关联和精确的3D姿态重建。在两个公开的多视角篮球数据集上的实验表明，MAEM始终优于现有的训练无关关联基线，并在室内和室外篮球场景中实现了具有竞争力的仅RGB性能。MAEM在SportCenter EPFL上实现了59.8/40.7 mm的MPJPE/PA-MPJPE分数，在Human-M3 Basketball上实现了74.0/51.8 mm的MPJPE/PA-MPJPE分数，突出了密集网格几何结构在跨视角关联中的有效性，而无需目标域训练或微调。

🔬 方法详解

问题定义：论文旨在解决多视角篮球比赛场景下，多人3D姿态估计问题。现有方法受限于2D关键点检测精度和跨视角关联的鲁棒性，尤其是在遮挡严重、队员穿着相似队服的情况下，关联错误率较高。此外，依赖大量标注数据的学习方法难以泛化到新的篮球场景。

核心思路：论文的核心思路是利用单目3D人体网格恢复模型提供的密集几何信息，辅助跨视角关联。通过网格信息，可以更准确地估计人体姿态和位置，从而提高极线匹配的准确性。这种方法避免了对大量标注数据的依赖，提高了泛化能力。

技术框架：MAEM框架主要包含以下几个阶段： 1. 单目3D网格恢复：使用现有的单目3D人体网格恢复模型，从每个视角提取人体网格。 2. 两阶段极线匹配： - 第一阶段：基于不相交集并查集的聚类：利用极线约束和网格信息，将来自不同视角的候选人体进行聚类，形成初步的关联。 - 第二阶段：逐关节三角测量：对每个关节进行三角测量，得到3D坐标，并优化关联结果。 3. 3D姿态重建：基于关联结果和三角测量得到的3D关节坐标，重建完整的多人3D姿态。

关键创新：最重要的技术创新点在于将单目3D网格恢复模型与极线匹配相结合，用于跨视角关联。与传统的基于2D关键点的极线匹配方法相比，MAEM利用了更丰富的几何信息，提高了关联的鲁棒性和准确性。此外，该方法是训练无关的，避免了对大量标注数据的依赖。

关键设计： * 不相交集并查集聚类：使用不相交集并查集算法进行聚类，可以有效地处理多人场景下的关联问题。 * 逐关节三角测量：对每个关节进行三角测量，可以提高3D姿态重建的精度。 * 极线约束：利用极线约束来限制候选匹配的范围，减少搜索空间。

🖼️ 关键图片

📊 实验亮点

MAEM在SportCenter EPFL数据集上取得了59.8/40.7 mm的MPJPE/PA-MPJPE分数，在Human-M3 Basketball数据集上取得了74.0/51.8 mm的MPJPE/PA-MPJPE分数。实验结果表明，MAEM优于现有的训练无关关联基线，并在室内和室外篮球场景中实现了具有竞争力的仅RGB性能，证明了密集网格几何结构在跨视角关联中的有效性。

🎯 应用场景

该研究成果可应用于体育赛事分析、运动员训练、虚拟现实和增强现实等领域。例如，可以利用该技术对篮球比赛进行3D动作捕捉和分析，为教练提供战术指导，帮助运动员提高技术水平。此外，该技术还可以用于创建沉浸式的虚拟现实篮球游戏，提升用户体验。

📄 摘要（原文）

Multi-view multi-person 3D pose estimation in team sports scenarios remains challenging due to player occlusions, appearance similarity caused by team uniforms, and the scarcity of annotated multi-view data, all of which limit the effectiveness and generalization capability of learning-based methods. In contrast, the performance of training-free approaches is inherently constrained by the accuracy of 2D keypoint detection and the robustness of cross-view association. To address these challenges, we propose Mesh-Aware Epipolar Matching (MAEM), a training-free framework for multi-view multi-person 3D pose estimation. Our method employs a monocular 3D human mesh recovery model as the frontend and introduces a two-stage epipolar matching strategy based on the recovered mesh outputs. Specifically, the proposed framework combines disjoint-set-union-based clustering with per-joint triangulation to achieve robust cross-view association and accurate 3D pose reconstruction. Experiments on two public multi-view basketball datasets demonstrate that MAEM consistently outperforms existing training-free association baselines while achieving competitive RGB-only performance in both indoor and outdoor basketball scenarios. MAEM achieves MPJPE/PA-MPJPE scores of 59.8/40.7 mm on SportCenter EPFL and 74.0/51.8 mm on Human-M3 Basketball, highlighting the effectiveness of dense mesh geometry for cross-view association without requiring target-domain training or fine-tuning.

Mesh-Aware Epipolar Matching for Multi-View Multi-Person 3D Pose Estimation in Basketball

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理