Towards Temporal Compositional Reasoning in Long-Form Sports Videos
作者: Siyu Cao, Lu Zhang, Ruizhe Zeng, Zhi-yong Liu
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
提出SportsTime基准和CoTR方法,解决长时体育视频中时序组合推理难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时视频理解 时序推理 多模态学习 体育视频分析 证据搜索 链式推理 大型语言模型 基准数据集
📋 核心要点
- 现有MLLM在长时体育视频理解中面临挑战,难以定位和整合时间上分散的证据。
- 提出时间链式推理(CoTR)方法,通过时间奖励和证据搜索循环实现时序证据组合。
- 构建大规模SportsTime基准,实验表明CoTR在时序推理和逐步理由质量上优于基线。
📝 摘要(中文)
体育视频因其复杂和动态的人类活动,对多模态理解提出了挑战。尽管多模态大型语言模型(MLLM)取得了快速进展,但在体育视频中的长时程推理仍然困难,因为回答问题既需要定位时间上稀疏的证据,又需要将这些证据整合到推理过程中。我们将这种局限性归因于两个紧密相关的因素:对时间分散证据的监督不足,以及缺乏要求模型识别、定位和证明时间证据的方法。为了解决这些差距,我们引入了SportsTime,这是一个大规模的用于长时体育视频理解的基准,包含14K+开放式问答对和50K+逐步时间证据注释。在SportsTime的基础上,我们提出了时间链式推理(CoTR),它将推理视为一个时间上基于证据组合的过程。具体来说,在训练期间,CoTR引入了一个时间奖励GRPO来鼓励时间上的理由推理。在推理过程中,它采用了一种锚定-观察-推断的证据搜索循环,以迭代地定位、验证和组合时间证据,然后生成最终答案。实验证明了SportsTime作为基准的有效性和CoTR的有效性,它始终提高了时间组合推理和逐步理由质量,优于强大的MLLM基线。
🔬 方法详解
问题定义:现有方法在处理长时体育视频理解时,难以有效地进行时序组合推理。主要痛点在于:1)缺乏对时间分散证据的充分监督;2)缺乏引导模型识别、定位和验证时序证据的机制。这导致模型难以从长视频中提取关键信息并进行推理。
核心思路:论文的核心思路是将推理过程分解为一系列时间上相关的证据组合步骤。通过鼓励模型逐步定位、验证和组合时序证据,最终得出答案。这种方法模拟了人类在理解复杂事件时的推理过程,提高了模型的可解释性和准确性。
技术框架:CoTR包含训练和推理两个阶段。训练阶段,引入时间奖励GRPO(Gradient Policy Optimization)来鼓励时间上的理由推理。推理阶段,采用锚定-观察-推断(Anchor-Observe-Infer)的证据搜索循环。首先,模型基于问题选择一个时间锚点(Anchor)。然后,模型观察(Observe)锚点附近的内容,并推断(Infer)下一步需要关注的时间点。这个过程迭代进行,直到模型找到足够的证据来回答问题。
关键创新:CoTR的关键创新在于其时间链式推理机制和证据搜索循环。时间链式推理通过时间奖励GRPO,显式地引导模型关注时间上的证据依赖关系。证据搜索循环则提供了一种迭代式的证据定位和验证方法,使得模型能够逐步构建对视频内容的理解。
关键设计:时间奖励GRPO的设计旨在最大化模型在正确时间步骤上生成正确证据的概率。证据搜索循环中的锚点选择策略和观察范围的确定,需要根据具体任务进行调整。损失函数的设计需要平衡推理准确性和证据定位的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoTR在SportsTime基准上显著优于现有的MLLM基线。具体来说,CoTR在问答准确率和时序证据定位准确率上均取得了显著提升。例如,在某些任务上,CoTR的问答准确率比最佳基线提高了10%以上,证明了其在时序组合推理方面的有效性。
🎯 应用场景
该研究成果可应用于体育视频分析、智能监控、自动驾驶等领域。例如,在体育视频分析中,可以帮助自动生成赛事集锦、分析运动员表现;在智能监控中,可以用于异常事件检测和行为分析;在自动驾驶中,可以用于理解复杂的交通场景和预测其他车辆的意图。该研究为长时视频理解提供了一种新的思路,具有广阔的应用前景。
📄 摘要(原文)
Sports videos are a challenging domain for multimodal understanding because they involve complex and dynamic human activities. Despite rapid progress in Multimodal Large Language Models (MLLMs), long-horizon reasoning in sports videos remains difficult, as answering questions requires both locating temporally sparse evidence and integrating it into reasoning. We attribute this limitation to two closely coupled factors: insufficient supervision over temporally dispersed evidence, and the lack of methods that require models to identify, localize, and justify temporal evidence. To address these gaps, we introduce SportsTime, a large-scale benchmark for long-form sports video understanding, comprising 14K+ open-ended QA pairs and 50K+ step-wise temporal evidence annotations. Building on SportsTime, we propose Chain-of-Time Reasoning (CoTR), which treats reasoning as a process of temporally grounded evidence composition. Specifically, during training, CoTR introduces a temporal-reward GRPO to encourage temporally grounded reasoning. During inference, it employs an anchor-observe-infer evidence-seeking loop to iteratively localize, verify, and compose temporal evidence before producing the final answer. Experiments demonstrate the usefulness of SportsTime as a benchmark and the effectiveness of CoTR, which consistently improves temporal compositional reasoning and step-wise grounding quality over strong MLLM baselines.