Progressive Video Condensation with MLLM Agent for Long-form Video Understanding

📄 arXiv: 2604.02891 📥 PDF

作者: Yufei Yin, Yuchen Xing, Qianke Meng, Minghao Chen, Yan Yang, Zhou Yu

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出ProVCA:一种基于MLLM Agent的渐进式视频精简方法,用于长视频理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态学习 大型语言模型 视频精简 关键帧提取

📋 核心要点

  1. 现有长视频理解方法要么丢失视觉细节,要么计算成本过高,难以在资源受限场景下应用。
  2. ProVCA通过渐进式地定位关键视频帧,从粗略片段到精细帧,最终提取少量关键帧供MLLM推理。
  3. 实验表明,ProVCA在多个数据集上取得了领先的零样本准确率,同时显著减少了所需的帧数。

📝 摘要(中文)

为了在有限的计算资源下理解长视频,需要从长序列中提取与查询相关的信息。现有的“文本-LLM”流程会丢失细粒度的视觉线索,而基于视频的多模态大型语言模型(MLLM)虽然能保留视觉细节,但对帧的需求量太大,计算成本过高。本文旨在利用MLLM进行高效的视频理解。我们提出了ProVCA,一种渐进式视频精简Agent,它以多粒度迭代地定位关键视频帧。ProVCA首先采用片段定位模块来识别与查询相关的视频片段,然后采用片段选择模块来选择基于相似性的重要片段,最后采用关键帧细化模块来精确定位这些片段中的特定关键帧。通过逐步缩小范围,从粗略的片段到精细的帧,ProVCA识别出一小部分关键帧,用于基于MLLM的推理。ProVCA在EgoSchema上实现了69.3%,在NExT-QA上实现了80.5%,在IntentQA上实现了77.7%的最先进的零样本准确率,同时使用的帧数少于以前的无训练方法。

🔬 方法详解

问题定义:长视频理解需要在计算资源有限的情况下,从冗长的视频序列中提取与特定查询相关的信息。现有的方法,如先将视频信息转化为文本再输入LLM,会丢失重要的视觉细节。而直接使用视频帧作为MLLM的输入,则会因为帧数过多而导致计算成本过高,难以应用。

核心思路:ProVCA的核心思路是通过渐进式的视频精简,逐步缩小需要处理的视频范围,最终提取出少量最具代表性的关键帧。这种方法旨在在保留关键视觉信息的同时,显著降低计算复杂度,从而使MLLM能够高效地进行长视频理解。

技术框架:ProVCA的整体框架包含三个主要模块:片段定位模块、片段选择模块和关键帧细化模块。首先,片段定位模块用于识别与查询相关的粗略视频片段。然后,片段选择模块基于相似性选择重要的片段。最后,关键帧细化模块在选定的片段中精确定位关键帧。整个过程是一个由粗到精的逐步筛选过程。

关键创新:ProVCA的关键创新在于其渐进式的视频精简策略。与以往要么完全依赖文本信息,要么直接处理大量视频帧的方法不同,ProVCA通过多阶段的筛选,有效地平衡了视觉信息的保留和计算成本的降低。这种渐进式的策略使得MLLM能够在有限的计算资源下,更好地理解长视频的内容。

关键设计:片段定位模块可能使用滑动窗口或基于注意力的机制来识别相关片段。片段选择模块可能使用余弦相似度或其他的相似性度量方法来选择重要的片段。关键帧细化模块可能使用聚类算法或基于显著性的方法来选择最具代表性的关键帧。具体的参数设置和网络结构可能根据不同的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ProVCA在EgoSchema、NExT-QA和IntentQA三个长视频理解数据集上取得了最先进的零样本准确率,分别为69.3%、80.5%和77.7%。更重要的是,ProVCA在实现这些性能的同时,使用的帧数明显少于之前的无训练方法,验证了其高效性和实用性。

🎯 应用场景

ProVCA具有广泛的应用前景,例如智能监控、视频搜索、自动驾驶、机器人导航等领域。它可以帮助机器人在资源受限的环境下,快速理解周围环境,并做出相应的决策。此外,ProVCA还可以用于视频摘要生成、视频内容分析等任务,提高视频处理的效率和准确性。

📄 摘要(原文)

Understanding long videos requires extracting query-relevant information from long sequences under tight compute budgets. Existing text-then-LLM pipelines lose fine-grained visual cues, while video-based multimodal large language models (MLLMs) can keep visual details but are too frame-hungry and computationally expensive. In this work, we aim to harness MLLMs for efficient video understanding. We propose ProVCA, a progressive video condensation agent that iteratively locates key video frames at multiple granularities. ProVCA first adopts a segment localization module to identify the video segment relevant to the query, then a snippet selection module to select important snippets based on similarity, and finally a keyframe refinement module to pinpoint specific keyframes in those snippets. By progressively narrowing the scope from coarse segments to fine frames, ProVCA identifies a small set of keyframes for MLLM-based reasoning. ProVCA achieves state-of-the-art zero-shot accuracies of 69.3\% on EgoSchema, 80.5\% on NExT-QA, and 77.7\% on IntentQA, while using fewer frames than previous training-free methods.