One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding

📄 arXiv: 2604.14149v1 📥 PDF

作者: Zheyu Zhang, Ziqi Pang, Shixing Chen, Xiang Hao, Vimal Bhat, Yu-Xiong Wang

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出LP-Comp和QC-Comp,实现长视频理解的极端压缩,提升VLM性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频压缩 视觉语言模型 注意力机制 数据高效学习

📋 核心要点

  1. 现有VLM在长视频理解中面临挑战,由于LLM上下文长度限制,VLM被迫稀疏采样帧,损失时间信息。
  2. 论文提出可学习的渐进式token级压缩(LP-Comp)和问题条件帧级压缩(QC-Comp),实现极端压缩。
  3. 实验表明,该方法在LVBench上将准确率从42.9%提升到46.2%,并在其他长视频基准上有所提升。

📝 摘要(中文)

长视频理解对视觉-语言模型(VLM)提出了挑战,因为视频帧数量庞大。通常,每个视频帧会扩展成几十甚至几百个token,而大型语言模型(LLM)有限的上下文长度迫使VLM稀疏地感知帧,从而丢失时间信息。为了解决这个问题,我们探索了在最终LLM层实现每个帧一个token的极端视频token压缩。我们的关键见解是,先前方法广泛采用的基于启发式的压缩容易造成信息丢失,因此需要将LLM层监督为可学习的和渐进的token级压缩(LP-Comp)模块。这种压缩使我们的VLM能够处理2x-4x更多的帧,并提高性能。为了进一步提高token效率,我们研究了帧级压缩,通过LLM层的内部注意力分数选择与查询最相关的帧,称为问题条件压缩(QC-Comp)。与以往研究的一个显著区别是,我们通过将长视频分割成短片段并采用局部注意力,缓解了LLM注意力在长上下文中的位置偏差,即过度集中在序列的开头和结尾。总的来说,我们结合token级和帧级压缩,得到了一个用于长视频理解的极端压缩模型,名为\name,实现了显著更大的压缩率,并实现了更密集的帧采样。我们的\name从VideoChat-Flash进行微调,采用数据高效的监督压缩调优阶段,仅需要2.5%的监督微调数据,但在LVBench上将准确率从42.9%提高到46.2%,并增强了多个其他长视频基准。

🔬 方法详解

问题定义:长视频理解任务中,由于视频帧数量巨大,直接输入视觉-语言模型(VLM)会导致token数量过多,超出大型语言模型(LLM)的上下文长度限制。现有方法通常采用启发式压缩,但容易造成信息丢失,影响模型性能。

核心思路:论文的核心思路是通过可学习的token级压缩和帧级压缩,在保证关键信息的前提下,大幅减少输入LLM的token数量。具体来说,token级压缩旨在将每个帧的多个token压缩为一个token,而帧级压缩则选择与当前问题最相关的帧。

技术框架:整体框架包含视频编码器、可学习的token级压缩模块(LP-Comp)、帧选择模块(QC-Comp)和LLM。视频首先通过视频编码器提取特征,然后LP-Comp将每个帧的特征压缩为单个token。接着,QC-Comp基于LLM的注意力权重选择与问题相关的帧。最后,选定的帧token被输入到LLM中进行推理。

关键创新:论文的关键创新在于提出了可学习的token级压缩(LP-Comp)和问题条件帧级压缩(QC-Comp)。LP-Comp通过监督学习的方式训练压缩模块,避免了启发式压缩的信息损失。QC-Comp利用LLM内部的注意力机制,动态选择与问题相关的帧,提高了token利用率。此外,论文还通过将长视频分割成短片段并采用局部注意力,缓解了LLM在长上下文中的位置偏差问题。

关键设计:LP-Comp模块通过监督学习进行训练,目标是最小化压缩后的token与原始token之间的信息损失。QC-Comp模块利用LLM的注意力权重作为帧重要性的指标,选择权重较高的帧。为了缓解位置偏差,论文将长视频分割成短片段,并在每个片段内应用局部注意力。损失函数包括压缩损失和下游任务的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在LVBench数据集上取得了显著的性能提升,准确率从42.9%提高到46.2%。此外,该方法仅需使用2.5%的监督微调数据即可达到较好的效果,表明其具有较高的数据效率。与其他长视频理解方法相比,该方法实现了更高的压缩率,并能够处理更密集的帧采样。

🎯 应用场景

该研究成果可应用于各种需要处理长视频的场景,例如视频问答、视频摘要、视频检索等。通过高效的视频压缩,可以在有限的计算资源下处理更长的视频,提高VLM的性能和效率。此外,该方法还可以应用于在线教育、智能监控等领域,提升用户体验和智能化水平。

📄 摘要(原文)

Long video understanding is inherently challenging for vision-language models (VLMs) because of the extensive number of frames. With each video frame typically expanding into tens or hundreds of tokens, the limited context length of large language models (LLMs) forces the VLMs to perceive the frames sparsely and lose temporal information. To address this, we explore extreme video token compression towards \emph{one token per frame} at the final LLM layer. Our key insight is that heuristic-based compression, widely adopted by previous methods, is prone to information loss, and this necessitates supervising LLM layers into \emph{learnable} and \emph{progressive} modules for \emph{token-level compression} (LP-Comp). Such compression enables our VLM to digest 2x-4x more frames with improved performance. To further increase the token efficiency, we investigate \emph{frame-level compression}, which selects the frames most relevant to the queries via the internal attention scores of the LLM layers, named \emph{question-conditioned compression} (QC-Comp). As a notable distinction from previous studies, we mitigate the position bias of LLM attention in long contexts, \emph{i.e.}, the over-concentration on the beginning and end of a sequence, by splitting long videos into short segments and employing local attention. Collectively, our combined \emph{token-level} and \emph{frame-level} leads to an e\textbf{x}treme compression model for long video understanding, named \textbf{\name}, achieving a significantly larger compression ratio and enabling denser frame sampling. Our \name is finetuned from VideoChat-Flash with a data-efficient \emph{supervised compression tuning} stage that only requires 2.5\% of the supervised fine-tuning data, yet boosts the accuracy from 42.9\% to 46.2\% on LVBench and enhances multiple other long video benchmarks.