FOCUS: Efficient Keyframe Selection for Long Video Understanding

作者: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-31 (更新: 2025-11-24)

🔗 代码/项目: GITHUB

💡 一句话要点

提出FOCUS，一种高效的关键帧选择方法，用于提升长视频理解中多模态大语言模型的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 关键帧选择 多模态大语言模型 多臂老虎机 组合纯探索

📋 核心要点

现有长视频理解方法在token预算有限的情况下，难以兼顾效率和信息完整性，预过滤可能导致关键信息丢失。
FOCUS将关键帧选择建模为组合纯探索问题，通过两阶段探索-利用策略，在token预算内选择信息量大的帧。
实验表明，FOCUS在长视频问答任务中，仅需处理少量帧即可显著提升准确率，尤其在长视频上效果更佳。

📝 摘要（中文）

多模态大语言模型(MLLM)将图像和视频帧表示为视觉tokens。然而，从单张图像扩展到数小时的视频会使token预算膨胀到超出实际限制。因此，常用的流程要么均匀地进行二次采样，要么使用较小的视觉-语言模型应用带有检索式评分的关键帧选择。然而，这些关键帧选择方法仍然依赖于选择前的预过滤来降低推理成本，并且可能会错过信息量最大的时刻。我们提出了FOCUS，即帧乐观置信上限选择，这是一个无需训练、模型无关的关键帧选择模块，可在严格的token预算下选择与查询相关的帧。FOCUS将关键帧选择形式化为多臂老虎机中的组合纯探索(CPE)问题：它将短时序片段视为臂，并使用经验均值和Bernstein置信半径来识别信息丰富的区域，同时保留对不确定区域的探索。由此产生的两阶段探索-利用过程从具有理论保证的顺序策略中简化而来，首先识别高价值的时间区域，然后在每个区域内选择得分最高的帧。在两个长视频问答基准测试中，FOCUS在处理不到2%的视频帧的同时，提供了显著的准确性改进。对于超过20分钟的视频，它在LongVideoBench上的准确率提高了11.9%，证明了其作为关键帧选择方法的有效性，并为使用MLLM的可扩展长视频理解提供了一个简单而通用的解决方案。

🔬 方法详解

问题定义：论文旨在解决长视频理解任务中，多模态大语言模型(MLLM)处理长视频时token数量爆炸的问题。现有方法，如均匀采样或基于检索的关键帧选择，要么效率低下，要么可能因为预过滤而丢失关键信息，无法在有限的token预算下实现高效且准确的长视频理解。

核心思路：论文的核心思路是将关键帧选择问题转化为一个组合纯探索(CPE)问题，并利用多臂老虎机(MAB)的框架来解决。通过探索和利用两个阶段，FOCUS旨在找到视频中最具信息量的帧，同时控制token数量，从而提升MLLM在长视频理解任务中的性能。

技术框架：FOCUS包含两个主要阶段：1. 区域探索：将视频分割成多个短时序片段（“臂”），利用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性。通过迭代选择置信上限最高的片段进行探索，从而识别出潜在的高价值时间区域。2. 帧选择：在第一阶段识别出的高价值区域内，选择得分最高的帧作为关键帧。整体流程无需训练，模型无关，可以灵活地与不同的MLLM结合使用。

关键创新：FOCUS的关键创新在于将关键帧选择问题建模为组合纯探索问题，并利用多臂老虎机框架进行求解。与传统的基于检索的关键帧选择方法不同，FOCUS不依赖于预过滤，而是通过探索和利用的策略，在token预算的约束下，自适应地选择信息量最大的帧。这种方法能够更有效地利用有限的token资源，从而提升MLLM在长视频理解任务中的性能。

关键设计：FOCUS的关键设计包括：1. 臂的定义：将视频分割成短时序片段，每个片段作为一个“臂”。2. 置信上限的计算：使用经验均值和Bernstein置信半径来计算每个臂的置信上限，用于指导探索过程。3. 两阶段策略：先进行区域探索，再进行帧选择，从而在保证效率的同时，尽可能地选择到信息量最大的帧。4. 模型无关性：FOCUS的设计不依赖于特定的MLLM，可以灵活地与不同的MLLM结合使用。

🖼️ 关键图片

📊 实验亮点

在LongVideoBench和TVQA两个长视频问答基准测试中，FOCUS在处理不到2%的视频帧的情况下，取得了显著的准确率提升。在LongVideoBench上，对于超过20分钟的视频，FOCUS的准确率提升了11.9%。实验结果表明，FOCUS是一种高效且有效的关键帧选择方法，能够显著提升MLLM在长视频理解任务中的性能。

🎯 应用场景

FOCUS可应用于各种需要处理长视频的场景，例如视频监控、自动驾驶、在线教育、视频会议等。通过高效的关键帧选择，可以显著降低计算成本，提升处理效率，并提高相关任务的准确率。该方法为长视频理解提供了一种通用的解决方案，具有广阔的应用前景。

📄 摘要（原文）

Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region. On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs. Code is available at https://github.com/NUS-HPC-AI-Lab/FOCUS.

FOCUS: Efficient Keyframe Selection for Long Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理