FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding
作者: De-An Huang, Subhashree Radhakrishnan, Zhiding Yu, Jan Kautz
分类: cs.CV, cs.AI
发布日期: 2025-04-24
🔗 代码/项目: GITHUB
💡 一句话要点
提出FRAG:一种帧选择增强生成框架,用于长视频和长文档理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 帧选择 长视频理解 长文档理解 多模态模型 大型语言模型
📋 核心要点
- 现有长上下文LMM计算成本高昂,限制了模型大小和性能,难以有效处理长视频和长文档。
- FRAG通过独立评分并选择关键帧,避免了长上下文处理,降低了计算复杂度,提升了效率。
- 实验表明,FRAG在长视频和长文档理解任务上,显著提升了现有LMM的性能,达到SOTA水平。
📝 摘要(中文)
大型多模态模型(LMMs)取得了显著进展。最近的研究将这些模型扩展到长输入,包括多页文档和长视频。然而,由于训练和推理的计算成本,这些长上下文模型的模型大小和性能仍然受到限制。本文探索了一个正交的方向,无需长上下文LMM即可处理长输入。我们提出了帧选择增强生成(FRAG),该模型首先选择输入中的相关帧,然后仅基于所选帧生成最终输出。选择过程的核心是通过独立地对每个帧进行评分来完成,这不需要长上下文处理。然后通过简单的Top-K选择来选择得分最高的帧。我们表明,这个非常简单的框架适用于长视频和多页文档,可以使用现有的LMM,无需任何微调。我们在实验中考虑了两个模型LLaVA-OneVision和InternVL2,并表明FRAG始终提高性能,并在长视频和长文档理解方面实现了最先进的性能。对于视频,FRAG在MLVU上将InternVL2-76B的性能提高了5.8%,在Video-MME上提高了3.7%。对于文档,与最近专门用于长文档理解的LMM相比,FRAG在MP-DocVQA上实现了超过20%的改进。代码可在https://github.com/NVlabs/FRAG获得。
🔬 方法详解
问题定义:论文旨在解决大型多模态模型(LMMs)在处理长视频和长文档时面临的计算成本高和性能受限的问题。现有方法通常依赖于长上下文建模,这导致了巨大的计算开销,限制了模型的大小和推理速度。因此,如何高效地处理长输入,同时保持或提升性能,是本文要解决的核心问题。
核心思路:论文的核心思路是“帧选择增强生成”(FRAG)。该方法首先从长输入(视频或文档)中选择最相关的帧或页面,然后仅基于这些选定的帧或页面生成最终的输出。这种方法避免了对整个长输入进行建模,从而显著降低了计算成本。核心在于独立地对每个帧进行评分,选取得分最高的Top-K帧。
技术框架:FRAG框架包含两个主要阶段:帧选择和生成。在帧选择阶段,模型独立地对输入中的每个帧(或文档中的每个页面)进行评分,评分标准基于帧与任务的相关性。然后,使用Top-K选择算法选择得分最高的K个帧。在生成阶段,选定的K个帧被输入到现有的LMM中,LMM基于这些帧生成最终的输出。整个过程无需对LMM进行任何微调。
关键创新:FRAG的关键创新在于其帧选择机制,它允许模型在不进行长上下文建模的情况下,专注于输入中最相关的部分。与现有方法相比,FRAG不需要复杂的注意力机制或Transformer结构来处理长序列,从而大大降低了计算复杂度。此外,FRAG的通用性使其可以应用于不同的LMM和不同的长输入类型(视频和文档)。
关键设计:帧选择过程中的评分函数是关键设计之一。论文中使用的评分函数依赖于现有的LMM的能力,例如,可以使用LMM来预测给定帧与任务的相关性得分。Top-K选择中的K值是一个重要的超参数,需要根据具体的任务和输入长度进行调整。此外,论文还探索了不同的LMM作为生成器,例如LLaVA-OneVision和InternVL2,并验证了FRAG的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FRAG在长视频和长文档理解任务上取得了显著的性能提升。在MLVU视频理解基准测试中,FRAG将InternVL2-76B的性能提高了5.8%。在Video-MME基准测试中,性能提高了3.7%。在MP-DocVQA长文档问答基准测试中,FRAG实现了超过20%的性能提升,超过了现有专门用于长文档理解的LMM。
🎯 应用场景
FRAG框架具有广泛的应用前景,可用于视频理解、文档问答、视频摘要、智能监控等领域。通过选择关键帧,可以显著降低计算成本,提高处理效率,使得LMM能够更好地应用于资源受限的场景。未来,FRAG可以进一步扩展到其他类型的长输入,例如音频和代码。
📄 摘要(原文)
There has been impressive progress in Large Multimodal Models (LMMs). Recent works extend these models to long inputs, including multi-page documents and long videos. However, the model size and performance of these long context models are still limited due to the computational cost in both training and inference. In this work, we explore an orthogonal direction and process long inputs without long context LMMs. We propose Frame Selection Augmented Generation (FRAG), where the model first selects relevant frames within the input, and then only generates the final outputs based on the selected frames. The core of the selection process is done by scoring each frame independently, which does not require long context processing. The frames with the highest scores are then selected by a simple Top-K selection. We show that this frustratingly simple framework is applicable to both long videos and multi-page documents using existing LMMs without any fine-tuning. We consider two models, LLaVA-OneVision and InternVL2, in our experiments and show that FRAG consistently improves the performance and achieves state-of-the-art performances for both long video and long document understanding. For videos, FRAG substantially improves InternVL2-76B by 5.8% on MLVU and 3.7% on Video-MME. For documents, FRAG achieves over 20% improvements on MP-DocVQA compared with recent LMMs specialized in long document understanding. Code is available at: https://github.com/NVlabs/FRAG