KASportsFormer: Kinematic Anatomy Enhanced Transformer for 3D Human Pose Estimation on Short Sports Scene Video

📄 arXiv: 2507.20763v1 📥 PDF

作者: Zhuoer Yin, Calvin Yeung, Tomohiro Suzuki, Ryota Tanaka, Keisuke Fujii

分类: cs.CV

发布日期: 2025-07-28

备注: 10 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

KASportsFormer:运动解剖学增强Transformer,用于短视频运动场景3D人体姿态估计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D人体姿态估计 运动场景 Transformer 运动解剖学 骨骼提取 肢体融合

📋 核心要点

  1. 现有基于Transformer的3D人体姿态估计方法在运动场景中表现不佳,原因是运动场景中存在运动模糊、遮挡和领域偏移等问题。
  2. KASportsFormer通过引入运动解剖学信息,利用骨骼提取器和肢体融合器模块提取运动信息,并进行多模态编码,从而提升模型对运动姿态的理解能力。
  3. 在SportsPose和WorldPose数据集上的实验结果表明,KASportsFormer取得了state-of-the-art的性能,显著降低了MPJPE误差。

📝 摘要(中文)

本文提出了一种名为KASportsFormer的基于Transformer的新型3D人体姿态估计框架,专门针对运动场景设计。该框架融合了运动解剖学信息,通过骨骼提取器(BoneExt)和肢体融合器(LimbFus)模块提取固有的运动信息,并以多模态方式进行编码,从而提升了模型理解短视频中复杂运动姿态的能力。为了验证该方法的有效性,我们在SportsPose和WorldPose两个代表性的运动场景数据集上进行了评估。实验结果表明,我们提出的方法取得了state-of-the-art的性能,在MPJPE指标上分别达到了58.0mm和34.3mm的误差。

🔬 方法详解

问题定义:现有基于Transformer的3D人体姿态估计方法在日常动作数据集上表现良好,但在运动场景中,由于运动模糊、遮挡和领域偏移等问题,性能显著下降。此外,运动场景中的关键动作往往发生在瞬间,现有方法难以捕捉这些瞬时动作。因此,如何提升模型在短视频运动场景中对复杂运动姿态的理解能力,是本文要解决的核心问题。

核心思路:本文的核心思路是将运动解剖学知识融入到Transformer模型中。通过提取人体骨骼和肢体的运动信息,并以多模态的方式进行编码,从而增强模型对运动姿态的理解能力。这种方法能够更好地捕捉运动场景中的关键动作,并提高模型的鲁棒性。

技术框架:KASportsFormer的整体框架包括以下几个主要模块:1) 输入视频帧序列;2) 2D姿态估计模块(例如使用现有的2D姿态估计器);3) 骨骼提取器(BoneExt)模块,用于提取人体骨骼的运动信息;4) 肢体融合器(LimbFus)模块,用于融合人体肢体的运动信息;5) Transformer编码器,用于对提取的运动信息进行编码;6) 3D姿态回归模块,用于预测3D人体姿态。

关键创新:KASportsFormer的关键创新在于引入了运动解剖学信息,并设计了骨骼提取器(BoneExt)和肢体融合器(LimbFus)模块。与现有方法相比,KASportsFormer能够更好地捕捉运动场景中的关键动作,并提高模型的鲁棒性。现有方法通常直接使用2D姿态估计的结果作为输入,忽略了人体骨骼和肢体的运动信息。

关键设计:骨骼提取器(BoneExt)模块通过计算相邻关节之间的距离和角度来提取骨骼的运动信息。肢体融合器(LimbFus)模块通过融合相邻肢体的运动信息来提高模型的鲁棒性。Transformer编码器使用多头注意力机制来捕捉不同关节之间的依赖关系。损失函数使用MPJPE(Mean Per Joint Position Error)作为主要评估指标,并可能结合其他正则化项来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KASportsFormer在SportsPose和WorldPose两个运动场景数据集上取得了state-of-the-art的性能。在SportsPose数据集上,KASportsFormer的MPJPE误差为58.0mm,相比于之前的最佳方法降低了显著的误差。在WorldPose数据集上,KASportsFormer的MPJPE误差为34.3mm,同样取得了显著的提升。这些实验结果表明,KASportsFormer能够有效地提高运动场景中3D人体姿态估计的准确性。

🎯 应用场景

KASportsFormer可应用于多种运动分析场景,例如运动员动作分析、运动训练辅助、体育赛事直播分析等。通过准确估计运动员的3D姿态,可以为教练员和运动员提供有价值的反馈,帮助他们改进技术动作,提高训练效率。此外,该方法还可以用于体育赛事直播分析,例如自动识别关键动作、生成精彩回放等。

📄 摘要(原文)

Recent transformer based approaches have demonstrated impressive performance in solving real-world 3D human pose estimation problems. Albeit these approaches achieve fruitful results on benchmark datasets, they tend to fall short of sports scenarios where human movements are more complicated than daily life actions, as being hindered by motion blur, occlusions, and domain shifts. Moreover, due to the fact that critical motions in a sports game often finish in moments of time (e.g., shooting), the ability to focus on momentary actions is becoming a crucial factor in sports analysis, where current methods appear to struggle with instantaneous scenarios. To overcome these limitations, we introduce KASportsFormer, a novel transformer based 3D pose estimation framework for sports that incorporates a kinematic anatomy-informed feature representation and integration module. In which the inherent kinematic motion information is extracted with the Bone Extractor (BoneExt) and Limb Fuser (LimbFus) modules and encoded in a multimodal manner. This improved the capability of comprehending sports poses in short videos. We evaluate our method through two representative sports scene datasets: SportsPose and WorldPose. Experimental results show that our proposed method achieves state-of-the-art results with MPJPE errors of 58.0mm and 34.3mm, respectively. Our code and models are available at: https://github.com/jw0r1n/KASportsFormer