Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

📄 arXiv: 2507.07990v1 📥 PDF

作者: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim

分类: cs.CV, cs.AI

发布日期: 2025-07-10

备注: Accepted at ICCV2025; Project page: https://www.jshyun.me/projects/sttm


💡 一句话要点

提出STTM:一种免训练的时空Token融合方法,加速视频LLM推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 token融合 时空冗余 免训练加速 视频问答

📋 核心要点

  1. 视频LLM计算复杂度随token数量呈平方增长,现有方法未能充分利用视频数据中的时空冗余。
  2. STTM通过多粒度空间token化和定向时序融合,在不进行训练的情况下减少token数量,降低计算成本。
  3. 实验表明,STTM在保证精度损失较小的情况下,显著加速了视频LLM的推理速度,且具备查询无关性。

📝 摘要(中文)

视频大语言模型(LLM)通过利用大量的时空tokens来实现强大的视频理解能力,但token数量的增加导致计算复杂度呈二次方增长。为了解决这个问题,我们提出了一种免训练的时空token融合方法,名为STTM。我们的关键洞察在于挖掘视频数据中被先前工作忽视的局部空间和时间冗余。STTM首先使用基于四叉树结构的由粗到精搜索将每一帧转换为多粒度的空间tokens,然后在时间维度上执行定向的成对融合。这种分解的融合方法在六个视频问答基准测试中优于现有的token缩减方法。值得注意的是,在50%的token预算下,STTM实现了2倍的加速,而精度仅下降0.5%;在30%的预算下,实现了3倍的加速,而精度仅下降2%。此外,STTM与查询无关,允许在同一视频的不同问题之间重复使用KV缓存。项目主页位于https://www.jshyun.me/projects/sttm。

🔬 方法详解

问题定义:视频大语言模型(Video LLM)在处理视频数据时,需要将视频帧转换为大量的时空tokens。然而,token数量的增加导致计算复杂度呈二次方增长,限制了Video LLM在实际应用中的效率。现有方法通常忽略了视频数据中存在的局部空间和时间冗余,导致token缩减的效率不高。

核心思路:论文的核心思路是利用视频数据中固有的时空冗余性,通过一种免训练的时空token融合方法(STTM)来减少token数量,从而加速Video LLM的推理过程。STTM的关键在于分解了空间和时间上的token融合过程,并分别采用不同的策略来高效地合并tokens。

技术框架:STTM主要包含两个阶段:多粒度空间token化和定向时序融合。首先,对于每一帧视频,STTM使用基于四叉树结构的由粗到精搜索方法,将图像分割成不同粒度的空间tokens。然后,在时间维度上,STTM执行定向的成对融合,将相邻帧之间的相似tokens进行合并。整个过程无需训练,可以直接应用于现有的Video LLM。

关键创新:STTM最重要的技术创新点在于其分解的时空token融合策略。与现有方法不同,STTM首先在空间维度上进行多粒度的token化,然后再在时间维度上进行定向融合。这种分解的策略能够更有效地利用视频数据中的时空冗余,从而实现更高的token缩减效率。此外,STTM的免训练特性使其能够方便地应用于各种Video LLM,而无需进行额外的训练。

关键设计:在空间token化阶段,STTM使用四叉树结构来搜索不同粒度的tokens。四叉树的每个节点代表一个图像区域,STTM根据区域内的像素方差来决定是否继续分割该区域。在时间融合阶段,STTM采用定向的成对融合策略,只合并相邻帧之间最相似的tokens。相似度可以通过计算tokens之间的余弦相似度来衡量。具体的参数设置包括四叉树的最大深度、最小区域大小以及相似度阈值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STTM在六个视频问答基准测试中取得了显著的性能提升。在50%的token预算下,STTM实现了2倍的加速,而精度仅下降0.5%。在30%的预算下,实现了3倍的加速,而精度仅下降2%。这些结果表明,STTM能够在保证精度损失较小的情况下,显著加速Video LLM的推理速度。此外,STTM的查询无关性使其能够重复使用KV缓存,进一步提高了效率。

🎯 应用场景

STTM具有广泛的应用前景,可以应用于各种需要高效视频理解的场景,例如视频监控、自动驾驶、智能安防、视频会议等。通过减少Video LLM的计算复杂度,STTM可以使其在资源受限的设备上运行,并提高实时视频处理的效率。未来,STTM可以与其他token缩减技术相结合,进一步提高Video LLM的性能。

📄 摘要(原文)

Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2$\times$ speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3$\times$ speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.