SMART: SMPLest-X Mesh Adaptation and RAFT Tracking for Soccer Pose Estimation

📄 arXiv: 2605.31551v1 📥 PDF

作者: Parthsarthi Rawat

分类: cs.CV

发布日期: 2026-05-29

备注: CVPR 2026 SoccerNet FIFA Skeleton Tracking Light Challenge, Rank 6


💡 一句话要点

SMART:基于SMPLest-X网格自适应与RAFT跟踪的足球运动员姿态估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D姿态估计 足球运动员 SMPLest-X RAFT光流 多任务学习

📋 核心要点

  1. 现有方法在广播视频中进行足球运动员3D姿态估计时,精度和鲁棒性仍有提升空间,尤其是在复杂场景和快速运动下。
  2. SMART方法的核心在于结合SMPLest-X的强大姿态估计能力和RAFT光流跟踪的精确运动信息,并通过多项技术优化模型。
  3. 实验结果表明,SMART方法在FIFA骨骼跟踪挑战赛的验证集和测试集上均取得了显著的性能提升,优于基线方法。

📝 摘要(中文)

本文提出了针对FIFA骨骼跟踪挑战赛2026的方法,该挑战赛要求从广播视频中估计足球运动员的3D世界坐标姿态。我们的方法通过分层剪辑分割、多任务深度监督和广播增强来微调SMPLest-X(ViT-H,6.87亿参数),并结合RAFT密集光流相机跟踪器、足部平面锚定和两阶段时间平滑。在验证集上,SMART相对于FIFA基线得分1.053,实现了0.647的得分,提升了38.6%;在保留的测试集上,SMART得分0.593(全局MPJPE:0.324米,局部MPJPE:0.054米)。

🔬 方法详解

问题定义:论文旨在解决从足球比赛广播视频中准确估计足球运动员3D姿态的问题。现有方法在处理复杂运动、遮挡和视角变化时,姿态估计精度不足,难以满足实际应用需求。

核心思路:论文的核心思路是利用SMPLest-X强大的单帧姿态估计能力,并结合RAFT光流跟踪提供的运动信息,通过多任务学习和数据增强等手段,提高姿态估计的精度和鲁棒性。同时,利用足部平面锚定和时间平滑技术进一步优化姿态估计结果。

技术框架:整体框架包括以下几个主要模块:1) 基于SMPLest-X的姿态估计模块,用于提取初始的3D人体姿态;2) 基于RAFT的光流跟踪模块,用于估计相机运动和人体运动;3) 多任务深度监督模块,用于提高深度估计的准确性;4) 足部平面锚定模块,用于约束足部位置;5) 两阶段时间平滑模块,用于平滑姿态估计结果。

关键创新:论文的关键创新在于将SMPLest-X和RAFT光流跟踪相结合,并提出了一系列针对足球运动员姿态估计的优化策略,包括分层剪辑分割、多任务深度监督、广播增强、足部平面锚定和两阶段时间平滑。这些策略有效地提高了姿态估计的精度和鲁棒性。

关键设计:在SMPLest-X的微调过程中,采用了分层剪辑分割策略,根据视频片段的难度进行分层训练。多任务深度监督利用额外的深度信息来约束姿态估计。广播增强则通过模拟不同的广播视角来提高模型的泛化能力。足部平面锚定利用足球场的平面信息来约束足部位置。两阶段时间平滑则通过卡尔曼滤波等方法来平滑姿态估计结果。

📊 实验亮点

SMART方法在FIFA骨骼跟踪挑战赛的验证集上,相对于FIFA基线得分1.053,实现了0.647的得分,提升了38.6%。在保留的测试集上,SMART得分0.593,全局MPJPE为0.324米,局部MPJPE为0.054米。这些结果表明,SMART方法在足球运动员姿态估计方面具有显著的优势。

🎯 应用场景

该研究成果可应用于足球比赛的运动分析、战术分析、虚拟现实体验增强以及运动员训练辅助等方面。通过精确的3D姿态估计,可以提取运动员的运动数据,分析其技术特点和战术执行情况,为教练员提供决策支持。此外,该技术还可用于创建更逼真的足球游戏和虚拟现实体验。

📄 摘要(原文)

We present our approach to the FIFA Skeletal Tracking Challenge 2026, which requires estimating 3D world-space poses of soccer players from broadcast video. Our method finetunes SMPLest-X (ViT-H, 687 M parameters) via a stratified clip split, multi-task depth supervision, and broadcast augmentation, paired with a RAFT dense optical flow camera tracker, foot-plane anchoring, and two-pass temporal smoothing. Against the FIFA baseline score of 1.053 on the validation set, SMART achieves 0.647, a 38.6% improvement; on the held-out test set, SMART scores 0.593 (Global MPJPE: 0.324 m, Local MPJPE: 0.054 m).