Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning

📄 arXiv: 2507.20163v1 📥 PDF

作者: Zeyu Xi, Haoying Sun, Yaofei Wu, Junchi Yan, Haoran Zhang, Lifang Wu, Liang Wang, Changwen Chen

分类: cs.CV

发布日期: 2025-07-27

备注: Accepted by ICCV 2025 (Poster)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于大语言模型的球员中心多模态提示生成网络,用于身份感知篮球视频描述

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频描述 大语言模型 多模态学习 球员身份识别 篮球视频

📋 核心要点

  1. 现有体育视频描述方法忽略球员身份,导致描述不够细致,缺乏实用性,难以满足用户对个性化信息的需求。
  2. 提出球员中心的多模态提示生成网络LLM-IAVC,通过提取球员身份信息并融合视频上下文,为大语言模型生成更准确的提示。
  3. 在NBA-Identity和VC-NBA-2022数据集上验证,实验结果表明该模型能够生成更准确的身份感知视频描述,性能优于现有方法。

📝 摘要(中文)

现有的体育视频描述方法通常侧重于动作,而忽略了球员身份,限制了其适用性。虽然一些方法集成了额外信息以生成身份感知的描述,但由于额外信息与视频内容无关,球员身份有时不正确。本文提出了一种球员中心的多模态提示生成网络,用于身份感知的体育视频描述(LLM-IAVC),该网络侧重于从视觉角度识别球员身份。具体而言,设计了一个身份相关信息提取模块(IRIEM)来提取与球员相关的多模态嵌入。IRIEM包括一个用于提取视觉特征和球员姓名的球员识别网络(PIN),以及一个用于将球员特征与视频内容联系起来以实现相互增强的双向语义交互模块(BSIM)。此外,还设计了一个视觉上下文学习模块(VCLM)来捕获关键的视频上下文信息。最后,通过将上述模块的输出集成为大语言模型(LLM)的多模态提示,它有助于生成带有球员身份的描述。为了支持这项工作,我们构建了一个名为NBA-Identity的新基准,这是一个大型的身份感知篮球视频描述数据集,包含9,726个视频,涵盖9种主要事件类型。在NBA-Identity和VC-NBA-2022上的实验结果表明,我们提出的模型取得了先进的性能。代码和数据集可在https://github.com/Zeyu1226-mt/LLM-IAVC公开获取。

🔬 方法详解

问题定义:现有体育视频描述方法主要关注动作本身,忽略了视频中球员的身份信息,导致生成的描述不够细致和个性化。即使有些方法尝试加入身份信息,但由于这些信息与视频内容关联性不强,容易出现身份识别错误,影响描述的准确性。

核心思路:论文的核心思路是从视觉角度出发,提取视频中球员的身份信息,并将其与视频内容进行融合,生成更准确的身份感知描述。通过设计专门的模块来提取球员身份和视频上下文信息,并将这些信息作为提示输入到大语言模型中,引导其生成包含球员身份的描述。

技术框架:LLM-IAVC模型主要包含三个模块:身份相关信息提取模块(IRIEM)、视觉上下文学习模块(VCLM)和大语言模型(LLM)。IRIEM负责提取球员的视觉特征和姓名信息,并通过双向语义交互模块将球员特征与视频内容关联起来。VCLM负责捕获视频的关键上下文信息。最后,将IRIEM和VCLM的输出作为多模态提示输入到LLM中,生成最终的视频描述。

关键创新:该论文的关键创新在于提出了一个球员中心的多模态提示生成网络,该网络能够从视觉角度准确地识别球员身份,并将身份信息与视频内容进行融合。通过设计专门的模块来提取球员身份和视频上下文信息,并将其作为提示输入到大语言模型中,从而生成更准确和个性化的视频描述。

关键设计:IRIEM模块包含一个球员识别网络(PIN),用于提取球员的视觉特征和姓名信息。PIN的具体结构未知。双向语义交互模块(BSIM)用于将球员特征与视频内容进行关联,其具体实现方式未知。视觉上下文学习模块(VCLM)用于捕获视频的关键上下文信息,其具体实现方式也未知。损失函数和参数设置等细节在论文中没有明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文构建了一个新的大型身份感知篮球视频描述数据集NBA-Identity,包含9,726个视频。实验结果表明,提出的LLM-IAVC模型在NBA-Identity和VC-NBA-2022数据集上取得了先进的性能,证明了该模型在身份感知视频描述方面的有效性。具体的性能指标和提升幅度未知。

🎯 应用场景

该研究成果可应用于体育视频分析、智能解说、个性化视频推荐等领域。例如,可以为篮球比赛视频生成包含球员身份信息的解说词,帮助观众更好地理解比赛;也可以根据用户关注的球员,推荐相关的比赛视频。未来,该技术还可以扩展到其他类型的视频,如电影、电视剧等,实现更智能化的视频内容理解和生成。

📄 摘要(原文)

Existing sports video captioning methods often focus on the action yet overlook player identities, limiting their applicability. Although some methods integrate extra information to generate identity-aware descriptions, the player identities are sometimes incorrect because the extra information is independent of the video content. This paper proposes a player-centric multimodal prompt generation network for identity-aware sports video captioning (LLM-IAVC), which focuses on recognizing player identities from a visual perspective. Specifically, an identity-related information extraction module (IRIEM) is designed to extract player-related multimodal embeddings. IRIEM includes a player identification network (PIN) for extracting visual features and player names, and a bidirectional semantic interaction module (BSIM) to link player features with video content for mutual enhancement. Additionally, a visual context learning module (VCLM) is designed to capture the key video context information. Finally, by integrating the outputs of the above modules as the multimodal prompt for the large language model (LLM), it facilitates the generation of descriptions with player identities. To support this work, we construct a new benchmark called NBA-Identity, a large identity-aware basketball video captioning dataset with 9,726 videos covering 9 major event types. The experimental results on NBA-Identity and VC-NBA-2022 demonstrate that our proposed model achieves advanced performance. Code and dataset are publicly available at https://github.com/Zeyu1226-mt/LLM-IAVC.