FOCUS: Efficient Keyframe Selection for Long Video Understanding

作者: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-31 (更新: 2025-11-24)

🔗 代码/项目: GITHUB

💡 一句话要点

提出FOCUS，一种高效的关键帧选择方法，用于提升长视频理解中多模态大语言模型的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 关键帧选择 多模态大语言模型 组合纯探索 视频问答

📋 核心要点

现有长视频理解方法在处理长视频时，由于token数量限制，通常采用均匀采样或预过滤的关键帧选择，可能丢失关键信息。
FOCUS提出一种无需训练、模型无关的关键帧选择模块，通过组合纯探索方法，在token预算限制下选择与查询相关的帧。
实验结果表明，FOCUS在长视频问答任务中，仅处理不到2%的视频帧，即可显著提升准确率，尤其在长视频上表现突出。

📝 摘要（中文）

多模态大语言模型(MLLM)将图像和视频帧表示为视觉tokens。然而，从单张图像扩展到数小时的视频，会使token预算远远超出实际限制。因此，常用的流程要么均匀地进行二次采样，要么使用较小的视觉-语言模型应用带有检索式评分的关键帧选择。然而，这些关键帧选择方法仍然依赖于选择前的预过滤来降低推理成本，并且可能会错过信息量最大的时刻。我们提出了FOCUS，即帧乐观置信上限选择，这是一个无需训练、模型无关的关键帧选择模块，它在严格的token预算下选择与查询相关的帧。FOCUS将关键帧选择形式化为多臂老虎机中的组合纯探索(CPE)问题：它将短时序片段视为臂，并使用经验均值和Bernstein置信半径来识别信息丰富的区域，同时保留对不确定区域的探索。由此产生的两阶段探索-利用过程从具有理论保证的顺序策略中简化而来，首先识别高价值的时间区域，然后在每个区域内选择得分最高的帧。在两个长视频问答基准测试中，FOCUS在处理不到2%的视频帧的同时，提供了显著的准确性改进。对于超过20分钟的视频，它在LongVideoBench上实现了11.9%的准确率提升，证明了其作为关键帧选择方法的有效性，并为使用MLLM的可扩展长视频理解提供了一个简单而通用的解决方案。

🔬 方法详解

问题定义：长视频理解任务面临的挑战是，多模态大语言模型处理长视频时，token数量会急剧增加，超出计算资源的限制。现有的关键帧选择方法，如均匀采样或基于检索的预过滤方法，要么无法保证选择到最具信息量的帧，要么需要额外的预处理步骤，增加了计算负担，并且可能错过关键时刻。

核心思路：FOCUS的核心思路是将关键帧选择问题建模为多臂老虎机中的组合纯探索(CPE)问题。通过将视频分割成短时序片段（“臂”），并利用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性，从而在探索和利用之间取得平衡。这种方法旨在快速识别包含关键帧的区域，同时避免过早地放弃对潜在重要区域的探索。

技术框架：FOCUS包含两个主要阶段：探索阶段和利用阶段。在探索阶段，算法对视频中的多个时序片段进行采样，并根据片段的信息价值和不确定性计算置信上限。然后，算法选择具有最高置信上限的片段进行进一步探索。在利用阶段，算法在已识别的高价值片段中选择得分最高的帧作为关键帧。整个过程无需训练，并且可以与任何视觉-语言模型结合使用。

关键创新：FOCUS的关键创新在于将关键帧选择问题形式化为组合纯探索问题，并利用Bernstein置信半径来指导探索过程。与传统的基于检索的关键帧选择方法相比，FOCUS不需要预训练或额外的模型，并且能够更有效地探索视频中的信息。此外，FOCUS的框架是模型无关的，可以很容易地应用于不同的视觉-语言模型。

关键设计：FOCUS的关键设计包括：1) 将视频分割成固定长度的短时序片段；2) 使用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性；3) 设计两阶段的探索-利用策略，以平衡探索和利用；4) 在利用阶段，使用视觉-语言模型对片段中的帧进行评分，并选择得分最高的帧。

📊 实验亮点

FOCUS在LongVideoBench和TVQA+两个长视频问答基准测试中取得了显著的性能提升。在LongVideoBench上，对于超过20分钟的视频，FOCUS实现了11.9%的准确率提升，同时仅处理不到2%的视频帧。这些结果表明，FOCUS是一种高效且有效的关键帧选择方法，能够显著提升长视频理解的性能。

🎯 应用场景

FOCUS作为一种高效的关键帧选择方法，可广泛应用于长视频理解领域，例如视频问答、视频摘要、视频检索等。它能够显著降低计算成本，提高处理长视频的效率，并提升多模态大语言模型在长视频任务中的性能。该方法具有很高的实际应用价值，有望推动长视频智能分析技术的发展。

📄 摘要（原文）

Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region. On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs. Code is available at https://github.com/NUS-HPC-AI-Lab/FOCUS.

FOCUS: Efficient Keyframe Selection for Long Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册