KiToke: Kernel-based Interval-aware Token Compression for Video Large Language Models

📄 arXiv: 2604.03414 📥 PDF

作者: Haifeng Huang, Yang Li

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

KiToke:面向视频大语言模型的核函数区间感知型Token压缩

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 Token压缩 核方法 视频理解 时序建模

📋 核心要点

  1. 视频大语言模型面临视觉token数量庞大导致的推理成本高昂问题,现有方法难以有效压缩。
  2. KiToke通过核函数估计全局token多样性,实现内容自适应选择,并引入区间感知合并保持时序连贯性。
  3. 实验表明,KiToke在多个视频理解基准上显著优于现有无训练压缩方法,尤其在低token保留率下。

📝 摘要(中文)

视频大语言模型(Video LLM)在视频理解任务中表现出色,但由于视觉token数量庞大,推理成本很高。我们提出KiToke,一种无需训练、与查询无关的token压缩方法,它减少了时空冗余,同时保留了关键的视觉信息。我们的方法使用基于核函数的冗余度量来全局估计token多样性,从而实现内容自适应选择,即使在极端的token预算下也能保持有效性,并进一步引入了轻量级的时序区间构建以及区间感知的token合并,以保持时序连贯性。与依赖局部或分段启发式方法的现有方法不同,KiToke显式地捕获整个视频中的全局冗余,从而实现更有效的token利用。在多个视频理解基准和Video LLM骨干网络上的大量实验表明,KiToke始终优于现有的无训练压缩方法,尤其是在低至1%的激进保留率下,增益尤为显著。

🔬 方法详解

问题定义:视频大语言模型需要处理大量的视觉token,这导致了高昂的计算和内存成本,尤其是在推理阶段。现有的token压缩方法通常依赖于局部或分段的启发式规则,无法有效地捕捉视频中的全局冗余信息,导致压缩效果不佳,尤其是在极端压缩比例下,性能下降明显。

核心思路:KiToke的核心思路是利用核函数来度量token之间的相似性,从而全局地估计视频中token的多样性。通过选择最具代表性的token,可以有效地减少冗余,同时保留关键的视觉信息。此外,KiToke还引入了时序区间构建和区间感知的token合并,以保持视频的时序连贯性。

技术框架:KiToke主要包含两个阶段:1) 基于核函数的token选择:首先,使用预训练的视觉编码器提取视频帧的token特征。然后,利用核函数(例如高斯核)计算token之间的相似度,并基于此估计token的多样性。最后,选择多样性最高的token作为代表性token。2) 时序区间构建和区间感知合并:将视频分割成多个时序区间,并在每个区间内进行token合并,以减少冗余并保持时序连贯性。

关键创新:KiToke的关键创新在于其全局冗余捕获能力。与依赖局部信息的现有方法不同,KiToke通过核函数显式地计算整个视频中token之间的相似度,从而能够更准确地识别和消除冗余。此外,区间感知的token合并策略也有助于保持视频的时序连贯性。

关键设计:在核函数选择方面,论文使用了高斯核,其带宽参数需要根据数据集进行调整。在时序区间构建方面,论文采用了一种轻量级的滑动窗口方法,窗口大小和步长是关键参数。在token合并方面,论文使用了一种简单的平均池化操作,将同一区间内的token特征进行合并。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KiToke在多个视频理解基准上取得了显著的性能提升。例如,在Something-Something V2数据集上,KiToke在1%的token保留率下,仍然能够保持较高的准确率,显著优于现有的无训练压缩方法。此外,KiToke还能够有效地降低Video LLM的推理时间,使其更具实用性。

🎯 应用场景

KiToke可应用于各种视频理解任务,例如视频分类、视频检索、视频问答等。通过降低视觉token的数量,可以显著降低Video LLM的推理成本,使其能够在资源受限的设备上运行,并提高其在实际应用中的部署效率。此外,该方法还可以用于视频摘要生成,通过选择最具代表性的token来提取视频的关键信息。

📄 摘要(原文)

Video Large Language Models (Video LLMs) achieve strong performance on video understanding tasks but suffer from high inference costs due to the large number of visual tokens. We propose KiToke, a training-free, query-agnostic token compression approach that reduces spatiotemporal redundancy while preserving critical visual information. Our method estimates token diversity globally using a kernel-based redundancy measure, enabling content-adaptive selection that remains effective under extreme token budgets, and further introduces a lightweight temporal interval construction with interval-aware token merging to maintain temporal coherence. Unlike prior methods that rely on local or segment-level heuristics, KiToke explicitly captures global redundancy across an entire video, leading to more efficient token utilization. Extensive experiments on multiple video understanding benchmarks and Video LLM backbones demonstrate that KiToke consistently outperforms existing training-free compression methods, with particularly large gains at aggressive retention ratios down to 1%.