FOCUS: Efficient Keyframe Selection for Long Video Understanding

📄 arXiv: 2510.27280v2 📥 PDF

作者: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-31 (更新: 2025-11-24)

🔗 代码/项目: GITHUB


💡 一句话要点

提出FOCUS,一种高效的关键帧选择方法,用于提升长视频理解中多模态大语言模型的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 关键帧选择 多模态大语言模型 多臂老虎机 组合纯探索

📋 核心要点

  1. 现有长视频理解方法在token预算有限的情况下,难以兼顾效率和信息完整性,预过滤可能导致关键信息丢失。
  2. FOCUS将关键帧选择建模为组合纯探索问题,通过两阶段探索-利用策略,在token预算内选择信息量大的帧。
  3. 实验表明,FOCUS在长视频问答任务中,仅需处理少量帧即可显著提升准确率,尤其在长视频上效果更佳。

📝 摘要(中文)

多模态大语言模型(MLLM)将图像和视频帧表示为视觉tokens。然而,从单张图像扩展到数小时的视频会使token预算膨胀到超出实际限制。因此,常用的流程要么均匀地进行二次采样,要么使用较小的视觉-语言模型应用带有检索式评分的关键帧选择。然而,这些关键帧选择方法仍然依赖于选择前的预过滤来降低推理成本,并且可能会错过信息量最大的时刻。我们提出了FOCUS,即帧乐观置信上限选择,这是一个无需训练、模型无关的关键帧选择模块,可在严格的token预算下选择与查询相关的帧。FOCUS将关键帧选择形式化为多臂老虎机中的组合纯探索(CPE)问题:它将短时序片段视为臂,并使用经验均值和Bernstein置信半径来识别信息丰富的区域,同时保留对不确定区域的探索。由此产生的两阶段探索-利用过程从具有理论保证的顺序策略中简化而来,首先识别高价值的时间区域,然后在每个区域内选择得分最高的帧。在两个长视频问答基准测试中,FOCUS在处理不到2%的视频帧的同时,提供了显著的准确性改进。对于超过20分钟的视频,它在LongVideoBench上的准确率提高了11.9%,证明了其作为关键帧选择方法的有效性,并为使用MLLM的可扩展长视频理解提供了一个简单而通用的解决方案。

🔬 方法详解

问题定义:论文旨在解决长视频理解任务中,多模态大语言模型(MLLM)处理长视频时token数量爆炸的问题。现有方法,如均匀采样或基于检索的关键帧选择,要么效率低下,要么可能因为预过滤而丢失关键信息,无法在有限的token预算下实现高效且准确的长视频理解。

核心思路:论文的核心思路是将关键帧选择问题转化为一个组合纯探索(CPE)问题,并利用多臂老虎机(MAB)的框架来解决。通过探索和利用两个阶段,FOCUS旨在找到视频中最具信息量的帧,同时控制token数量,从而提升MLLM在长视频理解任务中的性能。

技术框架:FOCUS包含两个主要阶段:1. 区域探索:将视频分割成多个短时序片段(“臂”),利用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性。通过迭代选择置信上限最高的片段进行探索,从而识别出潜在的高价值时间区域。2. 帧选择:在第一阶段识别出的高价值区域内,选择得分最高的帧作为关键帧。整体流程无需训练,模型无关,可以灵活地与不同的MLLM结合使用。

关键创新:FOCUS的关键创新在于将关键帧选择问题建模为组合纯探索问题,并利用多臂老虎机框架进行求解。与传统的基于检索的关键帧选择方法不同,FOCUS不依赖于预过滤,而是通过探索和利用的策略,在token预算的约束下,自适应地选择信息量最大的帧。这种方法能够更有效地利用有限的token资源,从而提升MLLM在长视频理解任务中的性能。

关键设计:FOCUS的关键设计包括:1. 臂的定义:将视频分割成短时序片段,每个片段作为一个“臂”。2. 置信上限的计算:使用经验均值和Bernstein置信半径来计算每个臂的置信上限,用于指导探索过程。3. 两阶段策略:先进行区域探索,再进行帧选择,从而在保证效率的同时,尽可能地选择到信息量最大的帧。4. 模型无关性:FOCUS的设计不依赖于特定的MLLM,可以灵活地与不同的MLLM结合使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在LongVideoBench和TVQA两个长视频问答基准测试中,FOCUS在处理不到2%的视频帧的情况下,取得了显著的准确率提升。在LongVideoBench上,对于超过20分钟的视频,FOCUS的准确率提升了11.9%。实验结果表明,FOCUS是一种高效且有效的关键帧选择方法,能够显著提升MLLM在长视频理解任务中的性能。

🎯 应用场景

FOCUS可应用于各种需要处理长视频的场景,例如视频监控、自动驾驶、在线教育、视频会议等。通过高效的关键帧选择,可以显著降低计算成本,提升处理效率,并提高相关任务的准确率。该方法为长视频理解提供了一种通用的解决方案,具有广阔的应用前景。

📄 摘要(原文)

Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region. On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs. Code is available at https://github.com/NUS-HPC-AI-Lab/FOCUS.