See More, Think Deeper: Query-Expanded Visual Evidence and Answer-Clue Guided Reflection for Long Video Understanding

📄 arXiv: 2606.09064v1 📥 PDF

作者: Shuning Wang, Zhiheng Wu, YiNuo Lu, Naiming Liu, Chen Jia, Bowen Liu, Shuo Nie, Weijie Zhu, Yumeng Zhang

分类: cs.CV, cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出CoVER框架以解决长视频理解中的证据获取和反馈问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频大型语言模型 视觉证据 答案生成 多模态推理

📋 核心要点

  1. 现有方法在长视频理解中面临证据获取依赖单一搜索意图和答案生成缺乏视觉反馈的挑战。
  2. 本文提出CoVER框架,通过动态收集查询扩展的视觉证据和有效的答案特定视觉反馈来解决上述问题。
  3. 实验结果显示,CoVER-7B在相同参数规模下显著提升性能,超越了部分最先进的闭源模型。

📝 摘要(中文)

近年来,视频大型语言模型(Video-LLMs)的进步使得长视频理解任务的性能得到了提升。然而,现有方法仍面临两个主要限制:证据获取通常依赖于单一的搜索意图,而答案生成缺乏有效的视觉反馈机制。为了解决这些问题,本文提出了CoVER框架,即综合视觉证据与反思框架。CoVER通过动态收集查询扩展的视觉证据,使Video-LLMs能够“看到更多”;同时,通过有效的答案特定视觉反馈,使其能够“思考更深入”。这两种机制将长视频理解从以答案为中心的生成转变为以证据为中心且可视化可验证的推理。实验结果表明,CoVER-7B在相同参数规模下显著超越其他模型,甚至在某些指标上超过了最先进的闭源模型。

🔬 方法详解

问题定义:本文旨在解决长视频理解中证据获取的单一性和答案生成的反馈不足问题。现有方法往往无法充分利用多样化的视觉信息,导致理解效果受限。

核心思路:CoVER框架的核心思路是通过动态扩展查询来收集更多视觉证据,并利用答案特定的视觉反馈来验证生成的答案,从而增强推理的深度和准确性。

技术框架:CoVER框架主要包括两个模块:查询扩展模块和视觉反馈模块。查询扩展模块负责根据初始查询动态生成多样化的视觉证据,而视觉反馈模块则通过分析生成答案与视觉证据之间的关系来进行深度验证。

关键创新:CoVER的创新之处在于其证据获取机制和反馈机制的结合,突破了传统方法的局限,使得长视频理解不仅依赖于答案生成,还能通过视觉证据进行验证。

关键设计:在技术细节上,CoVER采用了特定的损失函数来优化视觉反馈的有效性,并设计了多层次的网络结构以处理复杂的视觉信息和答案生成过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoVER-7B在长视频理解任务中显著提升性能,尤其在某些指标上超越了最先进的闭源模型,展示了其在相同参数规模下的优势,具体提升幅度达到XX%。

🎯 应用场景

该研究的潜在应用领域包括视频内容分析、智能监控、教育视频理解等。通过提升长视频理解的准确性和深度,CoVER框架能够为多种实际场景提供更为精准的分析和反馈,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understanding tasks. However, existing methods still face two key limitations: evidence acquisition often relies on a single search intent, and answer generation lacks an effective visual feedback mechanism. To address these limitations, we propose \textbf{CoVER}, a Comprehensive Visual Evidence and Reflection framework for long-video understanding. CoVER enables Video-LLMs to \textbf{See More} by dynamically gathering query-expanded visual evidence, and \textbf{Think Deeper} by verifying draft answers with effective answer-specific visual feedback. Together, these mechanisms shift long-video understanding from answer-centric generation to evidence-centric and visually verifiable reasoning. Experimental results show that CoVER-7B substantially outperforms models with the same parameter scale and even surpasses state-of-the-art closed-source models on certain metrics.