Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information
作者: Edoardo Bianchi, Oswald Lanz
分类: cs.CV
发布日期: 2025-03-06 (更新: 2025-10-03)
备注: Accepted at the 2025 Winter Conference on Applications of Computer Vision (WACV) Workshops. Visit the project page at https://edowhite.github.io/Gate-Shift-Pose
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Gate-Shift-Pose:融合骨骼信息的运动动作识别方法,提升花样滑冰摔倒检测精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动作识别 骨骼姿态估计 多模态融合 深度学习 体育运动分析
📋 核心要点
- 现有方法在体育动作识别中对复杂运动模式的捕捉能力不足,尤其是在摔倒检测等细粒度动作识别任务中。
- Gate-Shift-Pose通过融合RGB帧和骨骼姿态信息,利用早期和晚期融合策略,增强模型对运动模式的理解。
- 实验表明,Gate-Shift-Pose在花样滑冰摔倒检测任务中显著优于仅使用RGB的基线方法,精度提升高达40%。
📝 摘要(中文)
本文提出Gate-Shift-Pose,一种Gate-Shift-Fuse网络的增强版本,旨在通过整合骨骼姿态数据和RGB帧来提高花样滑冰运动员摔倒分类的准确性。我们评估了两种融合策略:早期融合,在输入阶段将RGB帧与姿态关键点的高斯热图相结合;以及晚期融合,采用多流架构和注意力机制来融合RGB和姿态特征。在FR-FS数据集上的实验表明,Gate-Shift-Pose显著优于仅使用RGB的基线方法,使用ResNet18时精度提高了高达40%,使用ResNet50时提高了20%。早期融合在使用ResNet50时实现了最高的精度(98.08%),充分利用了模型有效进行多模态整合的能力,而晚期融合更适合像ResNet18这样的轻量级骨干网络。这些结果突出了多模态架构在体育动作识别中的潜力,以及骨骼姿态信息在捕捉复杂运动模式中的关键作用。
🔬 方法详解
问题定义:论文旨在解决花样滑冰等体育运动中运动员摔倒检测精度不高的问题。现有方法主要依赖RGB视频帧,难以有效捕捉运动员的细微动作变化和姿态信息,导致摔倒检测的准确率受限。
核心思路:论文的核心思路是将骨骼姿态信息与RGB视频帧进行融合,利用骨骼姿态数据来补充RGB视频帧中缺失的运动信息,从而更准确地识别运动员的摔倒动作。通过早期和晚期两种融合策略,探索不同融合方式对模型性能的影响。
技术框架:Gate-Shift-Pose基于Gate-Shift-Fuse网络,采用多模态架构。整体流程包括:1) 输入RGB视频帧和骨骼姿态数据;2) 使用ResNet等骨干网络提取RGB特征;3) 使用姿态估计模型(如OpenPose)提取骨骼关键点,并生成高斯热图;4) 通过早期或晚期融合策略将RGB特征和姿态特征进行融合;5) 使用分类器进行摔倒检测。
关键创新:关键创新在于将骨骼姿态信息融入到Gate-Shift-Fuse网络中,并探索了早期和晚期两种融合策略。与仅使用RGB视频帧的方法相比,Gate-Shift-Pose能够更有效地捕捉运动员的运动模式和姿态变化,从而提高摔倒检测的准确率。
关键设计:早期融合将RGB帧与姿态关键点的高斯热图在输入层进行拼接,直接输入到ResNet等骨干网络中。晚期融合则采用多流架构,分别提取RGB和姿态特征,然后使用注意力机制对两种特征进行加权融合。损失函数采用交叉熵损失函数,优化器采用Adam。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gate-Shift-Pose在FR-FS数据集上显著优于仅使用RGB的基线方法。使用ResNet18时,精度提高了高达40%,使用ResNet50时提高了20%。早期融合策略在使用ResNet50时达到了最高的精度(98.08%),表明ResNet50具有更强的多模态融合能力。这些结果验证了骨骼姿态信息在体育动作识别中的重要性。
🎯 应用场景
该研究成果可应用于体育赛事直播、运动员训练辅助、运动损伤预防等领域。通过实时分析运动员的动作姿态,可以及时发现潜在的摔倒风险,并提供预警或干预,从而减少运动损伤的发生。此外,该方法还可以扩展到其他需要精细动作识别的领域,如医疗康复、人机交互等。
📄 摘要(原文)
This paper introduces Gate-Shift-Pose, an enhanced version of Gate-Shift-Fuse networks, designed for athlete fall classification in figure skating by integrating skeleton pose data alongside RGB frames. We evaluate two fusion strategies: early-fusion, which combines RGB frames with Gaussian heatmaps of pose keypoints at the input stage, and late-fusion, which employs a multi-stream architecture with attention mechanisms to combine RGB and pose features. Experiments on the FR-FS dataset demonstrate that Gate-Shift-Pose significantly outperforms the RGB-only baseline, improving accuracy by up to 40% with ResNet18 and 20% with ResNet50. Early-fusion achieves the highest accuracy (98.08%) with ResNet50, leveraging the model's capacity for effective multimodal integration, while late-fusion is better suited for lighter backbones like ResNet18. These results highlight the potential of multimodal architectures for sports action recognition and the critical role of skeleton pose information in capturing complex motion patterns. Visit the project page at https://edowhite.github.io/Gate-Shift-Pose