TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

📄 arXiv: 2504.17365v3 📥 PDF

作者: Ling You, Wenxuan Huang, Xinni Xie, Xiangyi Wei, Bangyan Li, Shaohui Lin, Yang Li, Changbo Wang

分类: cs.CV, cs.CL

发布日期: 2025-04-24 (更新: 2025-04-29)


💡 一句话要点

提出TimeSoccer,一个端到端多模态大语言模型,用于足球赛事解说生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 足球解说生成 多模态大语言模型 端到端学习 长视频理解 单锚点密集视频字幕

📋 核心要点

  1. 现有足球解说生成模型依赖时间先验或两步法,无法端到端处理长视频,且忽略全局上下文。
  2. TimeSoccer通过单次预测时间戳和字幕,实现端到端解说生成,并进行全局上下文建模。
  3. 引入MoFA-Select模块自适应选择关键帧,并结合互补训练,提升模型处理长时序能力,达到SOTA性能。

📝 摘要(中文)

足球是一项全球流行的体育赛事,通常具有比赛时间长和精彩瞬间独特的特点。多模态大语言模型(MLLM)的最新进展在时间定位和视频理解方面提供了有希望的能力。足球解说生成通常需要在长视频中进行精确的时间定位和语义丰富的描述。然而,现有的足球MLLM通常依赖于时间先验进行字幕生成,因此它们无法端到端地处理足球视频。虽然一些传统方法遵循两步范式,这种方法复杂且无法捕获全局上下文,从而导致次优性能。为了解决上述问题,我们提出了TimeSoccer,这是第一个用于完整足球比赛视频中单锚点密集视频字幕(SDVC)的端到端足球MLLM。TimeSoccer在一次传递中联合预测时间戳和生成字幕,从而能够跨45分钟的比赛进行全局上下文建模。为了支持足球比赛的长视频理解,我们引入了MoFA-Select,这是一个免训练的、运动感知的帧压缩模块,它通过粗到精的策略自适应地选择代表性帧,并结合互补的训练范式来加强模型处理长时间序列的能力。大量的实验表明,我们的TimeSoccer以端到端的形式在SDVC任务上实现了最先进(SoTA)的性能,生成了具有准确时间对齐和强大语义相关性的高质量解说。

🔬 方法详解

问题定义:论文旨在解决足球比赛视频的单锚点密集视频字幕(SDVC)任务,即给定一段完整的足球比赛视频,模型需要自动生成一系列带有时间戳的解说字幕。现有方法的痛点在于:1) 依赖于时间先验知识,无法真正实现端到端的生成;2) 传统的两步法(先定位时间戳,再生成字幕)复杂且忽略了全局上下文信息,导致性能受限。

核心思路:TimeSoccer的核心思路是设计一个端到端的多模态大语言模型,能够一次性预测时间戳和生成字幕,从而避免了对时间先验的依赖,并能够利用全局上下文信息。此外,为了处理足球比赛视频的时长,论文提出了一个运动感知的帧压缩模块,用于自适应地选择关键帧,减少计算量。

技术框架:TimeSoccer的整体框架是一个端到端的多模态大语言模型。它主要包含以下几个模块:1) 视频编码器:用于提取视频帧的视觉特征;2) MoFA-Select模块:用于自适应地选择关键帧;3) 大语言模型:用于融合视觉特征和时间信息,生成解说字幕和对应的时间戳。模型采用单次前向传播的方式,同时预测所有字幕的时间戳和内容。

关键创新:TimeSoccer的关键创新在于:1) 提出了一个端到端的SDVC模型,避免了对时间先验的依赖,并能够利用全局上下文信息;2) 提出了MoFA-Select模块,能够自适应地选择关键帧,从而有效地处理长视频;3) 结合了互补的训练范式,进一步提升了模型处理长时序数据的能力。与现有方法的本质区别在于,TimeSoccer能够以端到端的方式直接从原始视频生成解说字幕,而无需任何中间步骤。

关键设计:MoFA-Select模块采用粗到精的策略选择关键帧。首先,通过计算相邻帧之间的运动幅度,粗略地筛选出具有显著运动变化的帧。然后,对这些帧进行细粒度的分析,选择最具代表性的帧。在训练方面,论文采用了多种损失函数,包括字幕生成损失、时间戳预测损失等,以确保模型能够生成准确且语义相关的解说字幕。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TimeSoccer在SDVC任务上取得了SOTA性能,证明了其端到端架构和MoFA-Select模块的有效性。实验结果表明,TimeSoccer能够生成具有准确时间对齐和强大语义相关性的高质量解说,显著优于现有的方法。具体性能数据和对比基线信息在论文中详细给出,此处未知具体数值。

🎯 应用场景

TimeSoccer可应用于体育赛事直播、视频集锦制作、赛事分析等领域。该技术能够自动生成高质量的赛事解说,提升用户观看体验,并为赛事分析提供数据支持。未来,该技术有望扩展到其他类型的长视频内容,如电影、纪录片等,实现自动化的内容理解和生成。

📄 摘要(原文)

Soccer is a globally popular sporting event, typically characterized by long matches and distinctive highlight moments. Recent advances in Multimodal Large Language Models (MLLMs) offer promising capabilities in temporal grounding and video understanding, soccer commentary generation often requires precise temporal localization and semantically rich descriptions over long-form video. However, existing soccer MLLMs often rely on the temporal a priori for caption generation, so they cannot process the soccer video end-to-end. While some traditional approaches follow a two-step paradigm that is complex and fails to capture the global context to achieve suboptimal performance. To solve the above issues, we present TimeSoccer, the first end-to-end soccer MLLM for Single-anchor Dense Video Captioning (SDVC) in full-match soccer videos. TimeSoccer jointly predicts timestamps and generates captions in a single pass, enabling global context modeling across 45-minute matches. To support long video understanding of soccer matches, we introduce MoFA-Select, a training-free, motion-aware frame compression module that adaptively selects representative frames via a coarse-to-fine strategy, and incorporates complementary training paradigms to strengthen the model's ability to handle long temporal sequences. Extensive experiments demonstrate that our TimeSoccer achieves State-of-The-Art (SoTA) performance on the SDVC task in an end-to-end form, generating high-quality commentary with accurate temporal alignment and strong semantic relevance.