InfoMerge: Information-aware Token Compression for Efficient Video Large Language Models

📄 arXiv: 2606.02161v1 📥 PDF

作者: Xinxin Liu, Shiwei Gan, Xiao Liu, Yafeng Yin, Lei Xie, Sanglu Lu

分类: cs.CV, cs.CL

发布日期: 2026-06-01

备注: 15 pages, 8 figures


💡 一句话要点

InfoMerge:面向高效视频大语言模型的信息感知型Token压缩方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 视觉Token压缩 时间冗余估计 内容感知 高效推理

📋 核心要点

  1. 现有视频大语言模型的视觉Token数量过多,导致计算开销巨大,而现有压缩方法对噪声敏感,无法有效捕捉视频信息分布。
  2. InfoMerge通过时间指纹差异进行稳健的冗余估计,并利用内容感知预算分配策略,动态调整各片段的Token数量。
  3. 实验表明,InfoMerge在多个基准测试中实现了效率和准确性的良好平衡,尤其在高度压缩的情况下优势明显。

📝 摘要(中文)

视频大语言模型(Video-LLMs)在视频理解方面表现出色,但过多的视觉tokens带来了巨大的计算开销。现有的免训练压缩方法通过减少视觉tokens来提高推理效率,但它们通常依赖于局部相邻帧相似性进行时间冗余估计,或者主要根据片段长度来分配token预算。这些设计对帧级噪声敏感,并且无法捕捉真实世界视频的非均匀信息分布。为了解决这些挑战,我们提出了InfoMerge,一种免训练的视觉token压缩方法,通过稳健的冗余估计和内容感知的预算分配来提高token利用率。具体来说,我们提出了一种时间指纹差异:一种片段级的二阶时间冗余估计策略,它模拟了每个片段内相同空间位置的tokens的时间相似性结构。我们进一步引入了内容感知预算分配(CABA),它根据片段的独特性和基于谱熵的表征丰富度动态地分配片段级的token预算。通过减少对冗余静态区域的重复保留,并将更多tokens分配给信息丰富的片段,InfoMerge更好地利用了有限的token预算,同时保持了强大的性能。大量的实验表明,InfoMerge在多个基准和骨干网络上实现了强大的效率-精度权衡,在激进压缩下优势更加明显。在LLaVA-OneVision-7B上,InfoMerge保留了原始平均性能的98.8%,同时减少了85%的视觉tokens,并在预填充阶段实现了4.24倍的加速。

🔬 方法详解

问题定义:视频大语言模型需要处理大量的视觉tokens,导致计算成本高昂。现有的token压缩方法,如基于相邻帧相似性的方法,容易受到噪声干扰,且无法准确反映视频内容的信息分布,导致压缩效率不高。

核心思路:InfoMerge的核心在于通过更准确地估计视频内容的时间冗余和信息量,从而更有效地分配token预算。它避免了简单地依赖相邻帧相似性,而是关注片段级别的时间结构,并根据内容丰富度动态调整token数量。

技术框架:InfoMerge主要包含两个核心模块:时间指纹差异(Temporal Fingerprint Difference)和内容感知预算分配(Content-Aware Budget Allocation, CABA)。首先,利用时间指纹差异来估计视频片段内的时间冗余。然后,CABA根据片段的独特性和表征丰富度,动态地为每个片段分配token预算。最后,根据预算对视觉tokens进行压缩。

关键创新:InfoMerge的关键创新在于提出了时间指纹差异,这是一种二阶时间冗余估计策略,能够更鲁棒地捕捉视频片段内的时间相似性结构,减少噪声的影响。此外,内容感知预算分配能够根据视频内容的丰富程度,动态地调整token预算,避免了对静态或冗余区域的过度关注。

关键设计:时间指纹差异通过计算每个片段内相同空间位置的tokens的时间相似性结构来实现。内容感知预算分配则基于片段的独特性(通过与其他片段的差异来衡量)和基于谱熵的表征丰富度来确定token预算。具体的参数设置和网络结构细节在论文中进行了详细描述,例如谱熵计算的具体方法和CABA的预算分配策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InfoMerge在LLaVA-OneVision-7B模型上,能够在减少85%视觉tokens的同时,保留原始平均性能的98.8%,并在预填充阶段实现4.24倍的加速。实验结果表明,InfoMerge在多个基准测试和骨干网络上都取得了显著的效率-精度权衡,尤其是在高压缩率下表现更佳,证明了其在视频token压缩方面的有效性和优越性。

🎯 应用场景

InfoMerge可应用于各种需要高效视频理解的场景,例如视频监控、自动驾驶、视频检索、视频摘要等。通过降低视觉tokens的数量,可以显著减少计算资源消耗,提高推理速度,使得视频大语言模型能够在资源受限的设备上运行,并支持更大规模的视频数据处理。该研究对于推动视频智能在实际应用中的普及具有重要意义。

📄 摘要(原文)

Video Large Language Models (Video-LLMs) achieve strong performance in video understanding, but their excessive visual tokens bring substantial computational overhead. Existing training-free compression methods improve inference efficiency by reducing visual tokens, yet they often rely on local adjacent-frame similarity for temporal redundancy estimation or allocate token budgets mainly according to segment length. Such designs are sensitive to frame-level noise and fail to capture the non-uniform information distribution of real-world videos. To address these challenges, we propose InfoMerge, a training-free visual token compression method that improves token utilization through robust redundancy estimation and content-aware budget allocation. Specifically, we propose the Temporal Fingerprint Difference: a segment-level second-order temporal redundancy estimation strategy, which models the temporal similarity structure of tokens at the same spatial positions within each segment. We further introduce Content-Aware Budget Allocation (CABA), which dynamically allocates segment-level token budgets based on segment uniqueness and spectral-entropy-based representational richness. By reducing repeated preservation of redundant static regions and allocating more tokens to informative segments, InfoMerge makes better use of the limited token budget while maintaining strong performance. Extensive experiments show that InfoMerge achieves strong efficiency--accuracy trade-offs across multiple benchmarks and backbones, with more pronounced advantages under aggressive compression. On LLaVA-OneVision-7B, InfoMerge retains 98.8\% of the original average performance while reducing 85\% of visual tokens and achieving a 4.24-fold speedup in the prefill stage.