BoxComm: Benchmarking Category-Aware Commentary Generation and Narration Rhythm in Boxing
作者: Kaiwen Wang, Kaili Zheng, Rongrong Deng, Yiming Shi, Chenyi Guo, Ji Wu
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
BoxComm:提出拳击赛事解说生成数据集与评测体系,填补格斗运动解说AI研究空白
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 拳击解说生成 多模态学习 体育解说 数据集构建 解说节奏评估
📋 核心要点
- 现有体育解说生成基准主要集中于足球、篮球等团队运动,忽略了拳击等格斗运动的独特挑战,如动作迅速、战术分析占比高等。
- 论文构建了BoxComm数据集,并提出了解说分类体系,将解说词分为实况、战术和背景三类,为模型提供更细粒度的学习目标。
- 论文设计了类别条件生成和解说节奏评估两项指标,更全面地评估模型生成解说的质量,实验表明现有模型仍有较大提升空间。
📝 摘要(中文)
本文提出了BoxComm,一个大规模拳击赛事解说数据集,包含445场世界拳击锦标赛视频以及超过52K句专业解说词。该数据集针对格斗运动的特殊性,构建了结构化的解说分类体系,将解说词分为实况、战术和背景三类,为体育解说基准测试提供了首个类别级别的标注。基于此,论文提出了两项新颖的评测指标:类别条件生成,评估模型在给定视频内容下生成指定类型解说的能力;解说节奏评估,衡量自由生成的解说在连续视频片段中是否具有适当的时间步调和类型分布。实验表明,现有先进的多模态大语言模型在这两项评估中表现不佳。论文进一步提出了EIC-Gen,一种结合检测到的拳击事件以提供结构化动作提示的改进基线,取得了持续的性能提升,突出了感知格斗运动中转瞬即逝且细微事件的重要性。
🔬 方法详解
问题定义:现有体育解说生成数据集主要关注团队运动,缺乏对拳击等格斗运动的研究。格斗运动的解说具有动作快速、战术分析占比高等特点,现有方法难以捕捉这些细微差别,导致生成的解说缺乏专业性和针对性。
核心思路:论文的核心思路是构建一个专门针对拳击运动的大规模解说数据集,并设计相应的评测指标,以推动格斗运动解说生成的研究。通过引入解说分类体系和节奏评估,更全面地评估模型生成解说的质量。
技术框架:BoxComm数据集包含视频、解说词以及解说词的类别标注(实况、战术、背景)。基于此,论文提出了两个评测任务:类别条件生成和解说节奏评估。类别条件生成任务要求模型根据视频内容和指定的解说类别生成解说词。解说节奏评估任务则评估模型自由生成的解说在时间上的分布和类型变化是否合理。同时,论文提出了EIC-Gen模型,该模型利用检测到的拳击事件作为输入,以提升模型对关键动作的感知能力。
关键创新:主要创新点在于:1) 构建了首个针对拳击运动的大规模解说数据集BoxComm;2) 提出了结构化的解说分类体系;3) 设计了类别条件生成和解说节奏评估两项新颖的评测指标。与现有方法相比,该方法更关注格斗运动的特殊性,能够更全面地评估模型生成解说的质量。
关键设计:EIC-Gen模型的关键设计在于引入了拳击事件检测模块,该模块可以检测视频中的关键动作(如出拳、躲避等),并将这些动作信息作为模型的输入。具体来说,模型首先利用预训练的视觉模型提取视频特征,然后利用事件检测模块提取动作特征,最后将视频特征、动作特征和指定的解说类别输入到生成模型中,生成相应的解说词。损失函数方面,使用了交叉熵损失函数来训练生成模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有先进的多模态大语言模型在BoxComm数据集上的表现不佳,特别是在类别条件生成和解说节奏评估方面。论文提出的EIC-Gen模型通过引入拳击事件检测模块,在各项指标上均取得了显著提升,验证了感知关键动作对于格斗运动解说生成的重要性。例如,EIC-Gen在类别条件生成任务中,各项指标平均提升了5%以上。
🎯 应用场景
该研究成果可应用于智能体育解说、体育赛事分析、运动员训练辅助等领域。例如,可以利用该技术自动生成拳击比赛的解说词,为观众提供更丰富的观赛体验。此外,还可以利用该技术分析运动员的技术特点和战术风格,为运动员提供个性化的训练建议。未来,该技术有望应用于更多的格斗运动,推动格斗运动的智能化发展。
📄 摘要(原文)
Recent multimodal large language models (MLLMs) have shown strong capabilities in general video understanding, driving growing interest in automatic sports commentary generation. However, existing benchmarks for this task focus exclusively on team sports such as soccer and basketball, leaving combat sports entirely unexplored. Notably, combat sports present distinct challenges: critical actions unfold within milliseconds with visually subtle yet semantically decisive differences, and professional commentary contains a substantially higher proportion of tactical analysis compared to team sports. In this paper, we present BoxComm, a large-scale dataset comprising 445 World Boxing Championship match videos with over 52K commentary sentences from professional broadcasts. We propose a structured commentary taxonomy that categorizes each sentence into play-by-play, tactical, or contextual, providing the first category-level annotation for sports commentary benchmarks. Building on this taxonomy, we introduce two novel and complementary evaluations tailored to sports commentary generation: (1) category-conditioned generation, which evaluates whether models can produce accurate commentary of a specified type given video context; and (2) commentary rhythm assessment, which measures whether freely generated commentary exhibits appropriate temporal pacing and type distribution over continuous video segments, capturing a dimension of commentary competence that prior benchmarks have not addressed. Experiments on multiple state-of-the-art MLLMs reveal that current models struggle on both evaluations. We further propose EIC-Gen, an improved baseline incorporating detected punch events to supply structured action cues, yielding consistent gains and highlighting the importance of perceiving fleeting and subtle events for combat sports commentary.