VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning

📄 arXiv: 2512.22315v1 📥 PDF

作者: Yang Ding, Yizhen Zhang, Xin Lai, Ruihang Chu, Yujiu Yang

分类: cs.CV, cs.AI

发布日期: 2025-12-26


💡 一句话要点

提出VideoZoomer,通过强化学习动态聚焦长视频推理的关键帧。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 强化学习 动态视觉焦点 时间缩放 Agentic框架 视频推理

📋 核心要点

  1. 现有长视频理解方法依赖均匀采样或静态选择,易忽略关键帧,且无法纠正初始错误。
  2. VideoZoomer通过强化学习训练Agent,动态调整视觉焦点,多轮交互式提取关键帧信息。
  3. 实验表明,VideoZoomer在多个长视频理解基准上超越现有开源模型,甚至媲美专有系统。

📝 摘要(中文)

多模态大型语言模型(MLLM)在视觉-语言任务中取得了显著进展,但由于上下文窗口的限制,在长视频理解方面仍然存在局限性。因此,目前的方法倾向于依赖均匀帧采样或静态预选择,这可能会忽略关键证据,并且无法在推理过程中纠正其初始选择错误。为了克服这些限制,我们提出了VideoZoomer,这是一种新颖的agentic框架,使MLLM能够在推理过程中动态地控制其视觉焦点。从粗略的低帧率概览开始,VideoZoomer调用一个时间缩放工具,以自主选择的时刻获得高帧率片段,从而以多轮交互的方式逐步收集细粒度的证据。相应地,我们采用了一种两阶段训练策略:在精选的蒸馏范例和反思轨迹数据集上进行冷启动监督微调,然后进行强化学习以进一步优化agentic策略。大量的实验表明,我们的7B模型提供了多样化和复杂的推理模式,从而在广泛的长视频理解和推理基准测试中产生了强大的性能。这些涌现的能力使其能够始终超越现有的开源模型,甚至在具有挑战性的任务上与专有系统相媲美,同时在减少帧预算的情况下实现卓越的效率。

🔬 方法详解

问题定义:现有方法在处理长视频理解任务时,由于MLLM上下文窗口的限制,通常采用均匀帧采样或静态预选择策略。这些方法无法根据视频内容的重要性动态调整采样策略,容易忽略关键帧信息,并且一旦初始选择出现错误,后续推理过程难以纠正。因此,如何使MLLM能够动态地关注长视频中的关键信息,提高长视频理解的准确性和效率,是本文要解决的核心问题。

核心思路:本文的核心思路是引入一个agentic框架,使MLLM能够像人类一样,在理解长视频的过程中动态地调整视觉焦点。具体来说,该框架允许MLLM从一个低帧率的视频概览开始,然后通过一个“时间缩放”工具,自主选择需要更细致观察的时刻,提取高帧率的视频片段。通过多轮交互,MLLM可以逐步收集关键证据,从而更准确地理解视频内容。

技术框架:VideoZoomer框架包含以下几个主要模块:1) 视频编码器:将视频帧编码成视觉特征;2) Agent:基于MLLM实现,负责决定何时以及如何进行时间缩放;3) 时间缩放工具:根据Agent的指令,提取指定时刻的高帧率视频片段;4) MLLM:整合视觉特征和文本信息,进行推理和回答问题。整个流程如下:首先,视频编码器提取低帧率视频的特征。然后,Agent基于这些特征决定是否需要进行时间缩放。如果需要,Agent会选择一个时刻,时间缩放工具会提取该时刻的高帧率视频片段。最后,MLLM将所有信息整合起来,进行推理并输出答案。

关键创新:VideoZoomer的关键创新在于其动态调整视觉焦点的能力。与传统的静态采样方法不同,VideoZoomer能够根据视频内容的重要性,自主选择需要更细致观察的时刻,从而更有效地利用计算资源,提高长视频理解的准确性和效率。此外,通过强化学习训练Agent,使其能够学习到最优的视觉焦点调整策略,进一步提升了模型的性能。

关键设计:VideoZoomer采用了两阶段训练策略。第一阶段是冷启动监督微调,使用一个精选的数据集,包含蒸馏的范例和反思轨迹,用于初始化Agent的策略。第二阶段是强化学习,使用奖励函数来鼓励Agent选择包含关键信息的时刻,并惩罚选择无关信息的时刻。具体来说,奖励函数可以基于MLLM的推理结果的准确性来设计。此外,Agent的网络结构可以采用Transformer架构,以便更好地捕捉视频中的时序关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VideoZoomer在多个长视频理解基准测试中取得了显著的性能提升。例如,在某个基准测试中,VideoZoomer的7B模型超越了现有的开源模型,甚至与专有系统相媲美,同时在减少帧预算的情况下实现了更高的效率。这些结果表明,VideoZoomer具有很强的竞争力,有望成为长视频理解领域的重要技术。

🎯 应用场景

VideoZoomer在视频监控、自动驾驶、智能安防、教育视频分析等领域具有广泛的应用前景。例如,在视频监控中,可以帮助快速定位异常事件;在自动驾驶中,可以帮助车辆更准确地理解周围环境;在教育视频分析中,可以帮助教师了解学生的学习情况。该研究的实际价值在于提高了长视频理解的效率和准确性,未来有望推动相关领域的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved remarkable progress in vision-language tasks yet remain limited in long video understanding due to the limited context window. Consequently, prevailing approaches tend to rely on uniform frame sampling or static pre-selection, which might overlook critical evidence and unable to correct its initial selection error during its reasoning process. To overcome these limitations, we propose VideoZoomer, a novel agentic framework that enables MLLMs to dynamically control their visual focus during reasoning. Starting from a coarse low-frame-rate overview, VideoZoomer invokes a temporal zoom tool to obtain high-frame-rate clips at autonomously chosen moments, thereby progressively gathering fine-grained evidence in a multi-turn interactive manner. Accordingly, we adopt a two-stage training strategy: a cold-start supervised fine-tuning phase on a curated dataset of distilled exemplar and reflection trajectories, followed by reinforcement learning to further refine the agentic policy. Extensive experiments demonstrate that our 7B model delivers diverse and complex reasoning patterns, yielding strong performance across a broad set of long video understanding and reasoning benchmarks. These emergent capabilities allow it to consistently surpass existing open-source models and even rival proprietary systems on challenging tasks, while achieving superior efficiency under reduced frame budgets.