BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning

📄 arXiv: 2603.25533v1 📥 PDF

作者: Ning Ding, Keisuke Fujii, Toru Tamaki

分类: cs.CV

发布日期: 2026-03-26

备注: CVSports2026 accepted


💡 一句话要点

提出BFMD羽毛球全场密集数据集,用于羽毛球击球事件的密集描述

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 羽毛球 全场比赛 密集标注 多模态学习 视频描述 语义反馈 战术分析

📋 核心要点

  1. 现有羽毛球数据集缺乏全场比赛和密集多模态标注,限制了对比赛战术的深入理解和分析。
  2. 提出BFMD数据集,包含全场比赛视频和密集的击球事件标注,以及多模态信息,用于生成准确的击球描述。
  3. 构建基于VideoMAE的多模态描述框架,引入语义反馈机制,实验证明能有效提升击球描述的质量。

📝 摘要(中文)

为了理解羽毛球运动中的战术动态,需要分析完整的比赛而非孤立的片段。然而,现有的羽毛球数据集主要集中于短片段或特定任务的标注,很少提供带有密集多模态标注的全场数据。这种局限性使得生成准确的击球描述和进行比赛级别的分析变得困难。为了解决这个问题,我们推出了首个羽毛球全场密集(BFMD)数据集,包含19场广播比赛(包括单打和双打),涵盖超过20小时的比赛,包含1687个回合和16751个击球事件,每个事件都标注了击球描述。该数据集提供了分层标注,包括比赛片段、回合事件和密集的基于回合的多模态标注,例如击球类型、羽毛球轨迹、运动员姿态关键点和击球描述。我们开发了一个基于VideoMAE的多模态描述框架,该框架具有语义反馈机制,利用击球语义来指导描述生成并提高语义一致性。实验结果表明,多模态建模和语义反馈提高了击球描述的质量,优于仅使用RGB的基线。我们进一步通过分析整个比赛中战术模式的时间演变,展示了BFMD的潜力。

🔬 方法详解

问题定义:现有的羽毛球数据集通常只关注短视频片段或者针对特定任务进行标注,缺乏全场比赛的密集多模态标注。这使得研究人员难以进行全场比赛级别的战术分析,也难以生成准确的击球描述。因此,需要一个包含全场比赛视频和密集标注的数据集,以及一个能够有效利用多模态信息生成高质量击球描述的模型。

核心思路:论文的核心思路是构建一个包含全场比赛视频和密集多模态标注的羽毛球数据集(BFMD),并设计一个基于VideoMAE的多模态描述框架,该框架利用语义反馈机制,通过击球语义来指导描述生成,从而提高描述的语义一致性和准确性。这样可以更好地理解羽毛球比赛的战术动态。

技术框架:整体框架包含两个主要部分:数据集构建和模型设计。数据集构建方面,收集了19场羽毛球比赛视频,并进行了分层标注,包括比赛片段、回合事件和密集的基于回合的多模态标注(击球类型、羽毛球轨迹、运动员姿态关键点和击球描述)。模型设计方面,采用了基于VideoMAE的多模态描述框架,该框架包含视频编码器、音频编码器、姿态编码器和文本解码器等模块,并引入了语义反馈机制。

关键创新:论文的关键创新在于构建了首个羽毛球全场密集数据集BFMD,并提出了一个基于语义反馈的多模态描述框架。BFMD数据集为羽毛球比赛分析和击球描述生成提供了新的资源。语义反馈机制能够有效利用击球语义来指导描述生成,从而提高描述的语义一致性和准确性,这是与现有方法的主要区别。

关键设计:在模型设计方面,采用了VideoMAE作为视频编码器,利用其强大的视频表征能力。语义反馈机制的具体实现方式是:首先,利用击球类型等语义信息生成一个语义向量;然后,将该语义向量作为解码器的输入,引导解码器生成与语义信息一致的描述。损失函数方面,采用了交叉熵损失函数来训练描述生成模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的多模态描述框架在BFMD数据集上取得了显著的性能提升。与仅使用RGB的基线模型相比,多模态建模和语义反馈机制能够显著提高击球描述的质量。通过分析整个比赛中战术模式的时间演变,进一步展示了BFMD数据集的潜力。

🎯 应用场景

该研究成果可应用于羽毛球比赛的战术分析、运动员训练辅助、智能解说和体育游戏开发等领域。通过分析全场比赛的战术模式,可以帮助教练员制定更有效的训练计划,帮助运动员提高竞技水平。智能解说可以为观众提供更深入的比赛理解。体育游戏可以模拟真实的比赛场景,提高游戏体验。

📄 摘要(原文)

Understanding tactical dynamics in badminton requires analyzing entire matches rather than isolated clips. However, existing badminton datasets mainly focus on short clips or task-specific annotations and rarely provide full-match data with dense multimodal annotations. This limitation makes it difficult to generate accurate shot captions and perform match-level analysis. To address this limitation, we introduce the first Badminton Full Match Dense (BFMD) dataset, with 19 broadcast matches (including both singles and doubles) covering over 20 hours of play, comprising 1,687 rallies and 16,751 hit events, each annotated with a shot caption. The dataset provides hierarchical annotations including match segments, rally events, and dense rally-level multimodal annotations such as shot types, shuttle trajectories, player pose keypoints, and shot captions. We develop a VideoMAE-based multimodal captioning framework with a Semantic Feedback mechanism that leverages shot semantics to guide caption generation and improve semantic consistency. Experimental results demonstrate that multimodal modeling and semantic feedback improve shot caption quality over RGB-only baselines. We further showcase the potential of BFMD by analyzing the temporal evolution of tactical patterns across full matches.