MLLMs Know When Before Speaking: Revealing and Recovering Temporal Grounding via Attention Cues

📄 arXiv: 2605.21954v1 📥 PDF

作者: Dazhao Du, Liao Duan, Jian Liu, Tao Han, Yujia Zhang, Eric Liu, Xi Chen, Song Guo

分类: cs.CV, cs.AI

发布日期: 2026-05-21

备注: Project Website: https://ddz16.github.io/mllmsknowwhen.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

通过注意力线索揭示和恢复时间定位,提升MLLM在视频时序定位任务上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频时序定位 多模态大语言模型 注意力机制 时间感知 跨模态学习 推理优化 视频理解

📋 核心要点

  1. 现有MLLM在视频时序定位任务中表现不佳,时间戳预测不可靠,且缺乏有效且经济的解决方案。
  2. 论文核心思想是利用MLLM预填充阶段的注意力信息,提取时间定位头(TG-Heads)的注意力,缩小视觉上下文范围。
  3. 提出的框架无需训练,通过裁剪视频或注意力掩码抑制干扰,在多个基准测试中显著提升了MLLM的性能。

📝 摘要(中文)

视频时序定位(VTG)旨在定位未裁剪视频中查询事件的起始和结束时间,是评估多模态大语言模型(MLLM)是否理解事件发生时间和内容的关键测试。尽管现代MLLM能流利地描述视频内容,但其时间戳预测仍然不可靠。现有的补救措施要么需要在时间标注上进行昂贵的后训练,要么依赖于粗糙的无训练启发式方法。本文通过探究MLLM的跨模态注意力,揭示了一种感知-生成差距。关键发现是MLLM在预填充阶段通常知道目标区间,但在生成最终答案时丢失了这一信号。在预填充阶段,一个稀疏的注意力头集合(称为时间定位头,TG-Heads)将查询到视频的注意力集中在真实区间上。然而,在自回归解码过程中,答案token将注意力从该区间转移到视觉上显著但与查询无关的片段。基于此,本文提出了一个推理时“先读后生成”的框架。首先,将TG-Head预填充注意力转换为去偏的帧级别相关性信号,并提取其突出显示的高注意力区间。然后,通过视频裁剪或注意力掩码将视觉上下文限制在该区间内,重新调用MLLM以抑制干扰因素。无需参数更新和架构更改,该框架在三个VTG基准测试中始终如一地改进了MiMo-VL-7B、Qwen3-VL-8B和TimeLens-8B,增益高达+3.5 mIoU。

🔬 方法详解

问题定义:视频时序定位(VTG)任务旨在给定一个视频和一个文本查询,预测视频中与查询相关的事件发生的时间区间。现有方法要么需要昂贵的后训练,要么依赖粗糙的启发式方法,无法充分利用MLLM自身蕴含的时间感知能力。现有方法的痛点在于,MLLM在生成答案时,注意力会分散到与查询无关的视觉显著区域,导致时间定位不准确。

核心思路:论文的核心思路是利用MLLM在预填充阶段已经具备的时间感知能力。通过观察发现,在预填充阶段,特定的注意力头(TG-Heads)会将注意力集中在与查询相关的视频片段上。因此,可以通过提取这些注意力头的信息,来指导后续的答案生成过程,从而提高时间定位的准确性。这样设计的目的是为了避免在自回归解码阶段,注意力分散到无关区域,从而保留MLLM原本具备的时间感知能力。

技术框架:整体框架分为两个主要阶段:读取阶段和生成阶段。在读取阶段,首先提取TG-Heads在预填充阶段的注意力权重,并将其转换为帧级别的相关性信号。然后,基于该信号提取高注意力区间。在生成阶段,通过视频裁剪或注意力掩码,将MLLM的视觉上下文限制在高注意力区间内,并重新调用MLLM生成答案。

关键创新:最重要的技术创新点在于发现了MLLM在预填充阶段已经具备时间感知能力,并提出了利用TG-Heads注意力信息来指导答案生成的框架。与现有方法相比,该方法无需额外的训练,且能够有效地抑制干扰信息,从而提高时间定位的准确性。

关键设计:TG-Heads的选择是关键。论文通过实验分析确定了哪些注意力头对时间定位最有效。此外,如何将TG-Heads的注意力权重转换为帧级别的相关性信号,以及如何选择合适的阈值来提取高注意力区间,也是重要的设计细节。视频裁剪和注意力掩码是两种不同的限制视觉上下文的方式,可以根据具体情况选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在MiMo-VL-7B、Qwen3-VL-8B和TimeLens-8B三个模型上均取得了显著的性能提升,在三个VTG基准测试中,mIoU指标最高提升了3.5%。该方法无需参数更新和架构更改,具有良好的通用性和易用性。

🎯 应用场景

该研究成果可应用于智能视频分析、视频检索、智能监控等领域。例如,用户可以通过自然语言查询快速定位视频中的特定事件,提高视频处理效率。未来,该技术有望进一步提升人机交互的智能化水平,并为视频内容理解提供更精确的时间信息。

📄 摘要(原文)

Video temporal grounding (VTG), which localizes the start and end times of a queried event in an untrimmed video, is a key test of whether multimodal large language models (MLLMs) understand not only what happens but also when it happens. Although modern MLLMs describe video content fluently, their timestamp predictions remain unreliable, while existing remedies either require costly post-training on temporal annotations or rely on coarse training-free heuristics. In this work, we probe the cross-modal attention of MLLMs and uncover a perception-generation gap. Our key finding is that MLLMs often know the target interval during prefill, but lose this signal when generating the final answer. In the prefill stage, a sparse set of attention heads, which we call \emph{Temporal Grounding Heads} (TG-Heads), concentrates query-to-video attention on the ground-truth interval. During autoregressive decoding, however, the answer tokens shift attention away from this interval toward visually salient but query-irrelevant segments. This observation motivates an inference-time read-then-regenerate framework. We first convert TG-Head prefill attention into a debiased frame-level relevance signal and extract the high-attention interval it highlights. We then re-invoke the MLLM with visual context restricted to this interval, using video cropping or attention masking to suppress distractors. Without parameter updates and architectural changes, our framework consistently improves MiMo-VL-7B, Qwen3-VL-8B, and TimeLens-8B on three VTG benchmarks, with gains of up to +3.5 mIoU. The project website can be found at https://ddz16.github.io/mllmsknowwhen.github.io/.