Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders
作者: Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan
分类: cs.CV
发布日期: 2025-05-30
💡 一句话要点
提出Nar-KFC,利用叙事性关键帧提升MLLM长视频理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态学习 关键帧选择 文本叙述 大语言模型 视频摘要 信息压缩
📋 核心要点
- 长视频理解面临视频帧数量巨大与语言模型上下文长度有限的矛盾,传统方法效果不佳。
- Nar-KFC通过关键帧选择和文本叙事补充,实现视频内容的时序和内容感知压缩。
- 实验表明,Nar-KFC显著提升了现有MLLM在长视频理解任务上的性能表现。
📝 摘要(中文)
本文提出了一种名为“基于叙事性关键帧的线程化”(Nar-KFC)的即插即用模块,旨在提升多模态大型语言模型(MLLM)在长视频理解方面的能力。由于视频帧数量巨大,导致视觉token过多,超过了语言模型的上下文长度限制,因此利用MLLM进行长视频理解仍然面临挑战。传统的均匀采样方法容易选择到不相关的内容,而对MLLM进行数千帧的后训练会带来巨大的计算负担。Nar-KFC包含两个协同步骤:首先,将关键帧选择过程建模为一个整数二次规划问题,联合优化查询相关性和帧多样性。为了避免其计算复杂性,设计了一种定制的贪婪搜索策略作为一种有效的替代方案。其次,为了缓解稀疏关键帧采样造成的时间不连续性,进一步引入了由现成的字幕生成器从非关键帧生成的交错文本叙述。这些叙述根据其真实的时间顺序插入在关键帧之间,形成连贯而紧凑的表示。因此,Nar-KFC作为一种时间和内容感知的压缩策略,补充了视觉和文本模态。在多个长视频基准上的实验结果表明,Nar-KFC显著提高了流行MLLM的性能。代码将会公开。
🔬 方法详解
问题定义:长视频理解任务中,直接将所有视频帧输入多模态大语言模型(MLLM)会超出其上下文长度限制。均匀采样可能导致关键信息丢失,而对大量帧进行后训练则计算成本过高。现有方法难以在计算效率和信息完整性之间取得平衡。
核心思路:论文的核心思路是选择具有代表性的关键帧,并利用文本叙述弥补关键帧之间的时间间隔,从而在压缩视频信息的同时,尽可能保留视频的关键内容和时序信息。这种方法旨在减轻MLLM的计算负担,并提高其对长视频的理解能力。
技术框架:Nar-KFC模块包含两个主要阶段:关键帧选择和叙事性文本插入。首先,通过优化一个整数二次规划问题来选择关键帧,该问题同时考虑了查询相关性和帧多样性。由于该问题计算复杂度高,因此采用贪婪搜索策略作为替代方案。其次,利用现成的字幕生成器为非关键帧生成文本叙述,并按照时间顺序将这些叙述插入到关键帧之间。
关键创新:该方法最重要的创新在于将关键帧选择和文本叙述相结合,形成一种时间和内容感知的视频表示方法。与传统的均匀采样或仅依赖视觉信息的方法不同,Nar-KFC同时利用了视觉和文本信息,并且考虑了视频的时序结构,从而更有效地压缩和表示长视频。
关键设计:在关键帧选择阶段,整数二次规划问题旨在最大化关键帧与查询的相关性,并最大化关键帧之间的差异性。贪婪搜索策略通过迭代选择与已选关键帧差异最大且与查询最相关的帧来近似求解该问题。在叙事性文本插入阶段,使用现成的字幕生成器(例如BLIP)生成文本叙述。文本叙述被插入到其对应的时间戳的关键帧之间,以保持视频的时序结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Nar-KFC显著提高了现有MLLM在长视频理解任务上的性能。例如,在某些基准测试中,使用Nar-KFC的MLLM性能提升超过10%。与直接使用大量视频帧作为输入相比,Nar-KFC在保证性能的同时,显著降低了计算成本。
🎯 应用场景
该研究成果可应用于视频内容分析、智能监控、视频摘要生成、视频检索等领域。通过提升MLLM对长视频的理解能力,可以实现更智能的视频内容理解和应用,例如自动生成视频摘要、根据用户查询检索相关视频片段、以及在智能监控系统中识别异常事件。
📄 摘要(原文)
Employing Multimodal Large Language Models (MLLMs) for long video understanding remains a challenging problem due to the dilemma between the substantial number of video frames (i.e., visual tokens) versus the limited context length of language models. Traditional uniform sampling often leads to selection of irrelevant content, while post-training MLLMs on thousands of frames imposes a substantial computational burden. In this paper, we propose threading keyframes with narratives (Nar-KFC), a plug-and-play module to facilitate effective and efficient long video perception. Nar-KFC generally involves two collaborative steps. First, we formulate the keyframe selection process as an integer quadratic programming problem, jointly optimizing query-relevance and frame-diversity. To avoid its computational complexity, a customized greedy search strategy is designed as an efficient alternative. Second, to mitigate the temporal discontinuity caused by sparse keyframe sampling, we further introduce interleaved textual narratives generated from non-keyframes using off-the-shelf captioners. These narratives are inserted between keyframes based on their true temporal order, forming a coherent and compact representation. Nar-KFC thus serves as a temporal- and content-aware compression strategy that complements visual and textual modalities. Experimental results on multiple long-video benchmarks demonstrate that Nar-KFC significantly improves the performance of popular MLLMs. Code will be made publicly available.