BoxingVI: A Multi-Modal Benchmark for Boxing Action Recognition and Localization

📄 arXiv: 2511.16524v1 📥 PDF

作者: Rahul Kumar, Vipul Baghel, Sudhanshu Singh, Bikash Kumar Badatya, Shivam Yadav, Babji Srinivasan, Ravi Hegde

分类: cs.CV

发布日期: 2025-11-20


💡 一句话要点

BoxingVI:一个用于拳击动作识别与定位的多模态基准数据集

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 拳击动作识别 动作定位 多模态数据集 计算机视觉 格斗运动分析

📋 核心要点

  1. 现有格斗动作识别数据集不足以应对动作动态性、场景非结构化和环境差异带来的挑战。
  2. BoxingVI数据集通过手动分割和标记,提供高质量、多样化的拳击动作片段,涵盖多种运动风格和拍摄角度。
  3. 该数据集旨在促进低资源和非约束环境下,基于视觉的实时动作识别研究,推动运动分析和自动指导等应用。

📝 摘要(中文)

近年来,利用计算机视觉进行格斗运动分析越来越受到关注,但由于动作的动态性、非结构化以及记录环境的多样性,构建鲁棒的数据集仍然是一个主要瓶颈。本文提出了一个全面的、标注良好的视频数据集,专门用于拳击中的拳击检测和分类。该数据集包含6915个高质量的拳击片段,分为六种不同的拳击类型,这些片段来自20个公开的YouTube陪练视频,涉及18名不同的运动员。每个片段都经过手动分割和标记,以确保精确的时间边界和类别一致性,捕捉了各种运动风格、摄像机角度和运动员体格。该数据集专门用于支持基于视觉的实时动作识别研究,尤其是在低资源和非约束环境中。通过提供一个包含各种拳击示例的丰富基准,这项工作旨在加速拳击及相关领域中的运动分析、自动指导和性能评估的进展。

🔬 方法详解

问题定义:论文旨在解决计算机视觉在格斗运动分析中,因缺乏高质量、多样化数据集而面临的挑战。现有数据集难以应对拳击动作的动态性、非结构化以及记录环境的多样性,导致模型泛化能力不足。

核心思路:论文的核心思路是构建一个全面的、标注良好的拳击视频数据集,涵盖多种拳击类型、运动风格、摄像机角度和运动员体格,从而为基于视觉的拳击动作识别和定位研究提供可靠的基准。

技术框架:该数据集的构建流程主要包括以下几个阶段:1) 从公开的YouTube陪练视频中收集视频素材;2) 手动分割视频,提取出包含拳击动作的片段;3) 对每个片段进行标注,包括拳击类型和时间边界;4) 对数据集进行整理和验证,确保数据质量和一致性。

关键创新:该数据集的关键创新在于其高质量的标注和多样化的内容。与现有数据集相比,BoxingVI数据集提供了更精确的时间边界和类别一致性,并且涵盖了更广泛的运动风格、摄像机角度和运动员体格,从而能够更好地支持复杂场景下的拳击动作识别和定位研究。

关键设计:数据集中包含6915个高质量的拳击片段,分为六种不同的拳击类型。每个片段都经过手动分割和标记,以确保精确的时间边界和类别一致性。数据集的构建过程中,作者们特别关注了数据质量和一致性,以确保数据集的可靠性。

📊 实验亮点

BoxingVI数据集包含6915个高质量拳击片段,涵盖六种拳击类型,来自20个YouTube视频,涉及18名运动员。每个片段都经过手动分割和标注,确保时间边界和类别一致性。该数据集旨在推动低资源和非约束环境下的实时动作识别研究。

🎯 应用场景

该研究成果可广泛应用于体育训练、赛事分析、虚拟现实格斗游戏等领域。通过精准的拳击动作识别与定位,可以为运动员提供个性化的训练指导,帮助教练员进行战术分析,提升赛事观赏性,并为虚拟现实格斗游戏提供更真实的动作捕捉和反馈。

📄 摘要(原文)

Accurate analysis of combat sports using computer vision has gained traction in recent years, yet the development of robust datasets remains a major bottleneck due to the dynamic, unstructured nature of actions and variations in recording environments. In this work, we present a comprehensive, well-annotated video dataset tailored for punch detection and classification in boxing. The dataset comprises 6,915 high-quality punch clips categorized into six distinct punch types, extracted from 20 publicly available YouTube sparring sessions and involving 18 different athletes. Each clip is manually segmented and labeled to ensure precise temporal boundaries and class consistency, capturing a wide range of motion styles, camera angles, and athlete physiques. This dataset is specifically curated to support research in real-time vision-based action recognition, especially in low-resource and unconstrained environments. By providing a rich benchmark with diverse punch examples, this contribution aims to accelerate progress in movement analysis, automated coaching, and performance assessment within boxing and related domains.