Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning

📄 arXiv: 2510.15440v1 📥 PDF

作者: Xuchen Li, Xuzhao Li, Shiyu Hu, Kaiqi Huang

分类: cs.CV, cs.AI

发布日期: 2025-10-17

备注: Preprint, Under review


💡 一句话要点

提出基于证据优先的自适应框架EARL,解决视频LLM长视频推理中信息稀释问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 长视频推理 强化学习 证据选择 自适应采样

📋 核心要点

  1. 现有视频LLM采用静态均匀采样,导致长视频推理时关键信息被稀释,影响模型性能。
  2. 提出证据感知强化学习框架EARL,动态选择关键帧并局部重采样,提升证据纯度。
  3. 实验表明,EARL训练的模型在多个视频推理基准上达到SOTA,验证了证据优先策略的有效性。

📝 摘要(中文)

长视频推理是视频大语言模型(Video LLMs)面临的主要挑战,因为静态的均匀帧采样会导致信息稀释并掩盖关键证据。现有的像素空间视频推理Agent,虽然旨在主动与视频交互以获取新的视觉信息,但由于缺乏严格的奖励机制来保证证据纯度,并且无法在预采样帧之外进行时间信息补充,因此效果欠佳。为了解决这一关键问题,我们提出了一个新颖的基于证据优先的自适应框架,其核心理念是“少选择,多推理”。我们的核心贡献是证据感知强化学习(EARL)框架,它将模型转变为证据的主动询问者。EARL经过精确设计,可以动态选择最相关的帧,并且至关重要的是,围绕选定的关键帧执行局部重新采样,以访问细粒度的时间细节。在五个要求苛刻的视频推理基准上的大量实验表明,我们经过EARL训练的模型在开源Video LLM中实现了新的最先进水平,同时学习了一种有效且高纯度的视觉证据选择策略。令人印象深刻的是,我们的7B模型在LongVideoBench上达到了59.8%,在MVBench上达到了69.0%,在VideoMME上达到了64.9%。这些结果突出了优先考虑证据纯度的重要性以及我们框架的有效性。

🔬 方法详解

问题定义:现有视频大语言模型在处理长视频推理任务时,通常采用静态的均匀帧采样策略。这种策略的缺点在于,它无法区分视频帧的重要性,导致关键信息被稀释,模型难以捕捉到视频中的核心证据。此外,现有的像素空间视频推理Agent虽然能够与视频进行交互,但缺乏有效的机制来保证所选证据的纯度,并且无法充分利用时间信息,限制了其性能的提升。

核心思路:论文的核心思路是“少选择,多推理”,即优先选择包含关键证据的少量帧,然后对这些帧进行更深入的推理。为了实现这一目标,论文提出了证据感知强化学习(EARL)框架,该框架旨在训练模型成为一个主动的证据询问者,能够动态地选择最相关的帧,并围绕这些帧进行局部重采样,以获取更细粒度的时间信息。

技术框架:EARL框架主要包含两个阶段:证据选择阶段和推理阶段。在证据选择阶段,模型通过强化学习策略,根据当前状态选择需要采样的帧。奖励函数的设计至关重要,它引导模型选择包含更多关键证据的帧。在推理阶段,模型利用选定的帧进行推理,并生成最终的答案。为了进一步提升性能,模型还可以在选定的关键帧周围进行局部重采样,以获取更丰富的时间信息。

关键创新:该论文最重要的技术创新点在于提出了证据感知的强化学习框架EARL。与传统的均匀采样方法不同,EARL能够动态地选择最相关的帧,并围绕这些帧进行局部重采样。这种自适应的采样策略能够有效地提升证据纯度,从而提高模型的推理性能。此外,EARL框架还引入了专门设计的奖励机制,鼓励模型选择包含更多关键证据的帧。

关键设计:EARL框架的关键设计包括:1) 强化学习策略的选择,例如使用Actor-Critic算法来训练证据选择策略;2) 奖励函数的设计,例如可以使用预测答案的准确性作为奖励信号,也可以使用其他与证据相关的信息作为奖励信号;3) 局部重采样的策略,例如可以围绕选定的关键帧,以一定的步长进行采样;4) 模型架构的选择,例如可以使用Transformer模型来处理视频帧序列。

📊 实验亮点

实验结果表明,EARL训练的模型在LongVideoBench、MVBench和VideoMME等多个视频推理基准上取得了显著的性能提升。例如,在LongVideoBench上,7B模型达到了59.8%的准确率,在MVBench上达到了69.0%,在VideoMME上达到了64.9%。这些结果均超过了现有的开源Video LLM,证明了EARL框架的有效性。

🎯 应用场景

该研究成果可应用于智能监控、视频搜索、自动驾驶等领域。通过提升视频理解能力,可以更准确地分析监控视频中的异常行为,更高效地检索视频内容,以及提高自动驾驶系统对复杂交通场景的感知能力。未来,该技术有望在更多需要长视频理解的场景中发挥重要作用。

📄 摘要(原文)

Long-form video reasoning remains a major challenge for Video Large Language Models (Video LLMs), as static uniform frame sampling leads to information dilution and obscures critical evidence. Furthermore, existing pixel-space video reasoning agents, which are designed to actively interact with the video to acquire new visual information, remain suboptimal due to their lack of rigorous reward mechanisms to enforce evidence purity and their inability to perform temporal information supplementation beyond pre-sampled frames. To address this critical gap, we propose a novel evidence-prioritized adaptive framework built upon our core philosophy: "Select Less, Reason More." Our core contribution is the evidence-aware reinforcement learning (EARL) framework, which transforms the model into an active interrogator of evidence. EARL is precisely engineered to dynamically select the most relevant frames and, crucially, to perform localized re-sampling around the selected key frames to access fine-grained temporal detail. Extensive experiments on five demanding video reasoning benchmarks demonstrate that our EARL-trained model achieves new state-of-the-art among open-source Video LLMs, simultaneously learning an effective and high-purity visual evidence selection policy. Impressively, our 7B model achieves 59.8% on LongVideoBench, 69.0% on MVBench and 64.9% on VideoMME. These results highlight the importance of prioritizing evidence purity and the effectiveness of our framework.