FOCUS: Efficient Keyframe Selection for Long Video Understanding
作者: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-10-31 (更新: 2025-11-24)
🔗 代码/项目: GITHUB
💡 一句话要点
提出FOCUS,一种高效的关键帧选择方法,用于提升长视频理解中多模态大语言模型的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 关键帧选择 多模态大语言模型 组合纯探索 视频问答
📋 核心要点
- 现有长视频理解方法在处理长视频时,由于token数量限制,通常采用均匀采样或预过滤的关键帧选择,可能丢失关键信息。
- FOCUS提出一种无需训练、模型无关的关键帧选择模块,通过组合纯探索方法,在token预算限制下选择与查询相关的帧。
- 实验结果表明,FOCUS在长视频问答任务中,仅处理不到2%的视频帧,即可显著提升准确率,尤其在长视频上表现突出。
📝 摘要(中文)
多模态大语言模型(MLLM)将图像和视频帧表示为视觉tokens。然而,从单张图像扩展到数小时的视频,会使token预算远远超出实际限制。因此,常用的流程要么均匀地进行二次采样,要么使用较小的视觉-语言模型应用带有检索式评分的关键帧选择。然而,这些关键帧选择方法仍然依赖于选择前的预过滤来降低推理成本,并且可能会错过信息量最大的时刻。我们提出了FOCUS,即帧乐观置信上限选择,这是一个无需训练、模型无关的关键帧选择模块,它在严格的token预算下选择与查询相关的帧。FOCUS将关键帧选择形式化为多臂老虎机中的组合纯探索(CPE)问题:它将短时序片段视为臂,并使用经验均值和Bernstein置信半径来识别信息丰富的区域,同时保留对不确定区域的探索。由此产生的两阶段探索-利用过程从具有理论保证的顺序策略中简化而来,首先识别高价值的时间区域,然后在每个区域内选择得分最高的帧。在两个长视频问答基准测试中,FOCUS在处理不到2%的视频帧的同时,提供了显著的准确性改进。对于超过20分钟的视频,它在LongVideoBench上实现了11.9%的准确率提升,证明了其作为关键帧选择方法的有效性,并为使用MLLM的可扩展长视频理解提供了一个简单而通用的解决方案。
🔬 方法详解
问题定义:长视频理解任务面临的挑战是,多模态大语言模型处理长视频时,token数量会急剧增加,超出计算资源的限制。现有的关键帧选择方法,如均匀采样或基于检索的预过滤方法,要么无法保证选择到最具信息量的帧,要么需要额外的预处理步骤,增加了计算负担,并且可能错过关键时刻。
核心思路:FOCUS的核心思路是将关键帧选择问题建模为多臂老虎机中的组合纯探索(CPE)问题。通过将视频分割成短时序片段(“臂”),并利用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性,从而在探索和利用之间取得平衡。这种方法旨在快速识别包含关键帧的区域,同时避免过早地放弃对潜在重要区域的探索。
技术框架:FOCUS包含两个主要阶段:探索阶段和利用阶段。在探索阶段,算法对视频中的多个时序片段进行采样,并根据片段的信息价值和不确定性计算置信上限。然后,算法选择具有最高置信上限的片段进行进一步探索。在利用阶段,算法在已识别的高价值片段中选择得分最高的帧作为关键帧。整个过程无需训练,并且可以与任何视觉-语言模型结合使用。
关键创新:FOCUS的关键创新在于将关键帧选择问题形式化为组合纯探索问题,并利用Bernstein置信半径来指导探索过程。与传统的基于检索的关键帧选择方法相比,FOCUS不需要预训练或额外的模型,并且能够更有效地探索视频中的信息。此外,FOCUS的框架是模型无关的,可以很容易地应用于不同的视觉-语言模型。
关键设计:FOCUS的关键设计包括:1) 将视频分割成固定长度的短时序片段;2) 使用经验均值和Bernstein置信半径来评估每个片段的信息价值和不确定性;3) 设计两阶段的探索-利用策略,以平衡探索和利用;4) 在利用阶段,使用视觉-语言模型对片段中的帧进行评分,并选择得分最高的帧。
📊 实验亮点
FOCUS在LongVideoBench和TVQA+两个长视频问答基准测试中取得了显著的性能提升。在LongVideoBench上,对于超过20分钟的视频,FOCUS实现了11.9%的准确率提升,同时仅处理不到2%的视频帧。这些结果表明,FOCUS是一种高效且有效的关键帧选择方法,能够显著提升长视频理解的性能。
🎯 应用场景
FOCUS作为一种高效的关键帧选择方法,可广泛应用于长视频理解领域,例如视频问答、视频摘要、视频检索等。它能够显著降低计算成本,提高处理长视频的效率,并提升多模态大语言模型在长视频任务中的性能。该方法具有很高的实际应用价值,有望推动长视频智能分析技术的发展。
📄 摘要(原文)
Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region. On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs. Code is available at https://github.com/NUS-HPC-AI-Lab/FOCUS.