From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding

📄 arXiv: 2510.02262v1 📥 PDF

作者: Guangyu Sun, Archit Singhal, Burak Uzkent, Mubarak Shah, Chen Chen, Garin Kessler

分类: cs.CV

发布日期: 2025-10-02


💡 一句话要点

提出F2C:通过高效关键片段选择提升长视频理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 关键片段选择 时间连贯性 自适应分辨率 视频大语言模型

📋 核心要点

  1. 现有方法在处理长视频理解时,由于视觉tokens数量庞大,容易超出模型上下文窗口,且逐帧选择忽略了视频中的时间动态信息。
  2. 论文提出F2C方法,将关键帧选择扩展到关键片段选择,保留时间连贯性,并通过自适应分辨率策略平衡空间分辨率和片段长度。
  3. 实验结果表明,F2C在三个长视频基准测试上显著优于均匀采样,证明了保留时间连贯性对于提升长视频理解的重要性。

📝 摘要(中文)

视频大语言模型(VLMs)在各种视觉语言任务上取得了显著成果,但其实际应用受到“大海捞针”问题的限制:原始视频帧产生的大量视觉tokens耗尽了模型的上下文窗口。现有的解决方案通过选择稀疏的帧集合来减少token数量,但这种逐帧选择会丢弃重要的时间动态信息,导致对运动和事件连续性的次优推理。本文系统地探讨了时间信息的影响,并证明了将选择从孤立的关键帧扩展到关键片段(即短的、时间上连贯的片段)可以改善视频理解。为了在适应片段较大token占用空间的同时保持固定的计算预算,我们提出了一种自适应分辨率策略,该策略动态地平衡空间分辨率和片段长度,确保每个视频的token数量恒定。在三个长视频基准测试上的实验表明,我们的免训练方法F2C在Video-MME、LongVideoBench和MLVU基准测试上分别优于均匀采样高达8.1%、5.6%和10.3%。这些结果突出了在帧选择中保持时间连贯性的重要性,并为将视频LLM扩展到实际视频理解应用提供了一条可行的途径。

🔬 方法详解

问题定义:现有长视频理解方法面临“大海捞针”问题,即视频帧数量过多导致视觉tokens超出Video LLM的上下文窗口。简单的关键帧选择方法忽略了视频中的时间信息,无法有效捕捉运动和事件的连续性,导致理解能力下降。

核心思路:核心思路是将关键帧的选择扩展到关键片段的选择。通过选择短的、时间上连贯的视频片段,保留视频中的时间动态信息,从而提升模型对视频内容的理解能力。同时,为了控制计算量,采用自适应分辨率策略,动态平衡空间分辨率和片段长度。

技术框架:F2C方法主要包含两个核心部分:关键片段选择和自适应分辨率调整。首先,通过某种策略(例如,均匀采样或基于显著性的选择)选择关键片段。然后,根据片段的长度和预设的token数量预算,动态调整片段的空间分辨率,以确保每个视频的token数量保持恒定。整个过程无需训练,可以直接应用于现有的Video LLM。

关键创新:最重要的创新在于从关键帧选择到关键片段选择的转变。这种转变使得模型能够更好地捕捉视频中的时间信息,从而提升对运动和事件连续性的理解。此外,自适应分辨率策略能够在保持计算预算的同时,最大化时间信息的利用。

关键设计:自适应分辨率策略是关键设计之一。具体来说,对于每个选定的视频片段,根据其长度计算所需的空间分辨率,以满足预设的token数量预算。例如,如果片段长度较长,则降低空间分辨率;如果片段长度较短,则提高空间分辨率。具体的空间分辨率调整方法可以采用双线性插值等图像缩放技术。此外,关键片段的选择策略也会影响最终性能,可以选择均匀采样、基于显著性的选择等。

📊 实验亮点

F2C方法在Video-MME、LongVideoBench和MLVU三个长视频基准测试上分别取得了显著的性能提升,相对于均匀采样,分别提升了8.1%、5.6%和10.3%。这些结果表明,通过选择关键片段并保留时间连贯性,可以有效提升长视频理解能力,并且该方法无需训练,易于部署。

🎯 应用场景

该研究成果可广泛应用于各种需要长视频理解的场景,例如视频监控、自动驾驶、视频内容分析、智能客服等。通过提升长视频理解能力,可以实现更准确的事件检测、行为识别和场景理解,从而提高相关应用的智能化水平和用户体验。未来,该方法有望进一步扩展到其他多模态任务,例如视频问答、视频摘要等。

📄 摘要(原文)

Video Large Language Models (VLMs) have achieved remarkable results on a variety of vision language tasks, yet their practical use is limited by the "needle in a haystack" problem: the massive number of visual tokens produced from raw video frames exhausts the model's context window. Existing solutions alleviate this issue by selecting a sparse set of frames, thereby reducing token count, but such frame-wise selection discards essential temporal dynamics, leading to suboptimal reasoning about motion and event continuity. In this work we systematically explore the impact of temporal information and demonstrate that extending selection from isolated key frames to key clips, which are short, temporally coherent segments, improves video understanding. To maintain a fixed computational budget while accommodating the larger token footprint of clips, we propose an adaptive resolution strategy that dynamically balances spatial resolution and clip length, ensuring a constant token count per video. Experiments on three long-form video benchmarks demonstrate that our training-free approach, F2C, outperforms uniform sampling up to 8.1%, 5.6%, and 10.3% on Video-MME, LongVideoBench and MLVU benchmarks, respectively. These results highlight the importance of preserving temporal coherence in frame selection and provide a practical pathway for scaling Video LLMs to real world video understanding applications. Project webpage is available at https://guangyusun.com/f2c .