Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention

📄 arXiv: 2603.21957v1 📥 PDF

作者: Junhao Du, Jialong Xue, Anqi Li, Jincheng Dai, Guo Lu

分类: cs.CV

发布日期: 2026-03-23

备注: Accepted by CVPR 2026


💡 一句话要点

提出统一时空Token压缩方法,在极低保留率下提升Video-LLM性能

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Video-LLM Token压缩 时空建模 视频理解 低资源计算

📋 核心要点

  1. 现有Video-LLM的token压缩方法在极低保留率下,易导致视觉信息丢失和时空分配不平衡。
  2. 提出统一时空token压缩策略,通过全局选择高贡献、低冗余的tokens,并合并未选择的tokens。
  3. 实验表明,该方法在保留极少tokens的情况下,仍能保持较高的性能,并降低计算成本和延迟。

📝 摘要(中文)

视频大语言模型(Video-LLM)由于大量的视觉tokens而面临高计算成本。现有的token压缩方法通常采用两阶段的时空压缩策略,依赖于特定阶段的指标和时空可分性的隐式假设。然而,在极低的保留率下,这些方法通常导致不平衡的分配,并丢失对问答至关重要的视觉证据。本文将token压缩重新定义为全局token保留池中的时空分配任务。提出了一种统一的选择机制,该机制集成了注意力权重和语义相似性,以全局选择具有高贡献和低冗余的tokens。未选择的tokens通过聚类合并和重新填充,从而保持信息的完整性。在LLM内部,进一步引入了文本感知的合并,以基于查询相关性执行二次压缩。无需重新训练,该方法可作为与现有Video-LLM兼容的即插即用模块。实验表明,在多个基准测试中,仅保留约2%的视觉tokens即可保留90.1%的基线性能,同时将FLOPs降低至约2.6%。这些优势可以推广到不同的backbones,从而降低端到端推理延迟和内存消耗。本文的统一时空token压缩策略在超低token保留率下建立了视频理解的最新水平。

🔬 方法详解

问题定义:Video-LLM处理视频时,需要处理大量的视觉tokens,导致计算成本高昂。现有的token压缩方法通常采用两阶段(先空间后时间)的压缩策略,这种策略依赖于时空可分性的假设,并且在极低token保留率下,容易造成关键视觉信息的丢失,影响下游任务的性能。现有方法缺乏全局视角,难以在时空维度上进行最优的token分配。

核心思路:本文将token压缩问题重新定义为一个全局的时空token分配问题,目标是在有限的token保留预算下,最大化保留对下游任务有用的信息。核心思想是设计一个统一的选择机制,同时考虑token的贡献度和冗余度,从而在全局范围内选择最有价值的tokens。对于未被选择的tokens,通过聚类合并的方式进行信息保留,避免直接丢弃。

技术框架:该方法主要包含以下几个阶段:1) 特征提取:使用预训练的视觉 backbone 提取视频帧的特征。2) 统一时空token选择:基于注意力权重和语义相似性,对所有tokens进行全局选择。3) Token合并与填充:对未被选择的tokens进行聚类合并,并用合并后的特征进行填充。4) 文本感知合并:在LLM内部,根据文本查询的相关性,对tokens进行二次压缩。整个框架可以作为即插即用模块,集成到现有的Video-LLM中。

关键创新:该方法最关键的创新在于提出了一个统一的时空token选择机制,打破了传统两阶段压缩方法的局限性。该机制同时考虑了token的贡献度和冗余度,从而能够在全局范围内进行最优的token分配。此外,通过聚类合并的方式保留未选择的tokens的信息,避免了信息的直接丢失。

关键设计:在统一时空token选择阶段,使用了注意力权重和语义相似性作为选择的依据。注意力权重反映了token对下游任务的贡献程度,语义相似性则用于衡量token之间的冗余程度。具体来说,使用注意力权重作为token重要性的度量,并使用余弦相似度计算token之间的语义相似性。通过加权组合注意力权重和语义相似性,得到每个token的最终得分,并根据得分进行token选择。在token合并阶段,使用了K-means聚类算法对未选择的tokens进行聚类,并将每个簇的中心作为合并后的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个视频理解基准测试中取得了显著的性能提升。在保留约2%的视觉tokens的情况下,仍能保持90.1%的基线性能,同时将FLOPs降低至约2.6%。该方法在不同的backbones上都表现出良好的泛化能力,并能够有效降低端到端推理延迟和内存消耗。与现有方法相比,该方法在超低token保留率下取得了state-of-the-art的性能。

🎯 应用场景

该研究成果可广泛应用于视频理解相关的任务,例如视频问答、视频摘要、视频检索等。通过降低Video-LLM的计算成本和内存消耗,可以使其在资源受限的设备上运行,并加速视频处理的速度。该方法还有助于提升Video-LLM在长视频上的应用效果,使其能够处理更长时间的视频内容。

📄 摘要(原文)

Video large language models (Video-LLMs) face high computational costs due to large volumes of visual tokens. Existing token compression methods typically adopt a two-stage spatiotemporal compression strategy, relying on stage-specific metrics and an implicit assumption of spatiotemporal separability. Under extremely low retention ratios, however, such approaches often result in unbalanced allocation and loss of visual evidence essential for question answering. We reformulate token compression as a spatiotemporal allocation task within a global token retention pool. We propose a unified selection mechanism that integrates attention weights and semantic similarity to globally select tokens with high contribution and low redundancy. Unselected tokens are merged via clustering and refilled, preserving information integrity. Inside the LLM, we further introduce text-aware merging to perform secondary compression based on query relevance. Without requiring retraining, our method serves as a plug-and-play module compatible with existing Video-LLMs. Experiments show that retaining only about 2% of visual tokens preserves 90.1% of baseline performance across multiple benchmarks, while reducing FLOPs to roughly 2.6%. These benefits generalize across diverse backbones, decreasing end-to-end inference latency and memory consumption. Our unified spatiotemporal token compression strategy establishes the state-of-the-art in video understanding under ultra-low token retention.