Small Vision-Language Models are Smart Compressors for Long Video Understanding
作者: Junjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2026-04-09
备注: Project page and demo are available at https://FeiElysia.github.io/tempo-page/
💡 一句话要点
提出Tempo,利用小型视觉-语言模型高效压缩长视频,显著提升长视频理解性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 视觉-语言模型 自适应Token分配 视频压缩 多模态学习
📋 核心要点
- 现有方法在处理长视频时,由于token数量限制,通常采用稀疏采样或均匀池化,盲目牺牲了视频信息的保真度。
- Tempo利用小型视觉-语言模型作为局部时间压缩器,通过自适应Token分配,动态地为关键帧分配更多token,压缩冗余信息。
- 实验结果表明,Tempo在长视频理解任务上取得了显著的性能提升,甚至超越了GPT-4o和Gemini 1.5 Pro等大型模型。
📝 摘要(中文)
为了解决多模态大型语言模型(MLLM)在处理长视频时因上下文长度限制而受阻的问题,本文提出了一种名为Tempo的查询感知高效框架,用于压缩长视频以进行下游理解。Tempo利用小型视觉-语言模型(SVLM)作为局部时间压缩器,将token缩减转化为早期跨模态蒸馏过程,从而在单次前向传播中生成紧凑且与意图对齐的表示。为了在不破坏因果关系的前提下强制执行严格的预算,引入了自适应Token分配(ATA)。ATA利用SVLM的零样本相关性先验和语义前置,充当免训练的O(1)动态路由器,为查询关键片段分配密集带宽,同时将冗余压缩为最小的时间锚点以维持全局故事情节。大量实验表明,我们的6B架构通过积极的动态压缩(0.5-16 tokens/frame)实现了最先进的性能。在极长的LVBench(4101s)上,Tempo在严格的8K视觉预算下获得了52.3分,优于GPT-4o和Gemini 1.5 Pro。扩展到2048帧达到53.7。至关重要的是,Tempo将长达一小时的视频压缩到远低于理论极限的水平,证明真正的长视频理解依赖于意图驱动的效率,而不是贪婪地填充上下文窗口。
🔬 方法详解
问题定义:现有方法在处理长视频理解任务时,面临着视觉token数量爆炸的问题。直接将长视频输入到MLLM中会超出其上下文长度限制,导致性能下降。传统的稀疏采样或均匀池化方法虽然可以减少token数量,但会盲目地丢弃关键信息,影响理解的准确性。
核心思路:Tempo的核心思路是利用小型视觉-语言模型(SVLM)作为高效的视频压缩器,在保持关键信息的同时,大幅减少token数量。通过查询感知的自适应Token分配,动态地调整不同帧的token数量,使得关键帧获得更多的关注,而冗余帧则被压缩。
技术框架:Tempo框架主要包含两个阶段:局部时间压缩和全局上下文理解。首先,SVLM作为局部时间压缩器,对视频片段进行编码,并利用自适应Token分配(ATA)模块动态地分配token数量。ATA模块基于SVLM的零样本相关性先验和语义前置,为每个帧分配不同的token数量。然后,将压缩后的视频表示输入到MLLM中进行全局上下文理解,完成下游任务。
关键创新:Tempo的关键创新在于自适应Token分配(ATA)模块。ATA模块能够根据视频内容的重要性动态地调整token数量,避免了传统方法中盲目丢弃信息的缺陷。ATA模块利用SVLM的零样本能力,无需额外的训练,即可实现高效的token分配。
关键设计:ATA模块的设计是Tempo的关键。它基于SVLM的输出,计算每个帧的重要性得分,并根据得分动态地分配token数量。具体来说,ATA模块使用一个简单的线性层将SVLM的输出映射到重要性得分,然后使用softmax函数对得分进行归一化,得到每个帧的token分配比例。此外,为了保证因果关系,ATA模块在分配token时会考虑历史信息。
🖼️ 关键图片
📊 实验亮点
Tempo在LVBench长视频理解数据集上取得了显著的性能提升。在严格的8K视觉token预算下,Tempo的得分达到了52.3,超越了GPT-4o和Gemini 1.5 Pro等大型模型。当扩展到2048帧时,Tempo的得分进一步提升至53.7。这些结果表明,Tempo能够有效地压缩长视频,并在保持关键信息的同时,显著提升长视频理解的性能。
🎯 应用场景
Tempo具有广泛的应用前景,例如视频监控、自动驾驶、智能会议、在线教育等领域。它可以帮助我们更有效地处理和理解长视频数据,从而提高相关应用的性能和效率。未来,Tempo还可以应用于视频摘要、视频检索、视频问答等任务。
📄 摘要(原文)
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free $O(1)$ dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.