OTT-Vid: Optimal Transport Temporal Token Compression for Video Large Language Models

📄 arXiv: 2605.11803v1 📥 PDF

作者: Minseok Kang, Minhyeok Lee, Jungho Lee, Minjung Kim, Donghyeong Kim, Dayeon Lee, Heeseung Choi, Ig-jae Kim, Sangyoun Lee

分类: cs.CV, cs.AI

发布日期: 2026-05-12

备注: 22pages, 9 figures. Code available at https://github.com/minseokii/OTT-Vid


💡 一句话要点

提出OTT-Vid,通过最优传输进行时序token压缩,提升Video-LLM效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 token压缩 最优传输 时序建模 无训练方法 视频问答 时序定位

📋 核心要点

  1. 现有Video-LLM面临长视频处理时token数量爆炸的问题,传统压缩方法忽略token语义重要性。
  2. OTT-Vid通过空间剪枝和最优传输,自适应地压缩时序token,兼顾token重要性和匹配代价。
  3. 实验表明,OTT-Vid在大幅压缩token数量的同时,显著优于现有方法,保持了较高的VQA和VTG性能。

📝 摘要(中文)

随着视频大语言模型(Video-LLMs)扩展到更长更复杂的视频,其推理成本因跨帧累积的大量视觉token而迅速增长。无训练token压缩已成为解决这一瓶颈的实用方案。然而,现有的时序压缩方法主要依赖于跨帧token相似性或分割启发式方法,忽略了每个token在其帧内的语义角色,并且未能使压缩强度适应每个帧对的可压缩性。本文提出了OTT-Vid,一种用于时序token压缩的基于传输的分配框架。我们的方法包括两个阶段:空间剪枝识别每个帧内的代表性内容,然后求解相邻帧之间的最优传输(OT)以估计时序可压缩性。我们将此OT公式化为具有非均匀token质量,从而保护语义上重要的token免受激进压缩,以及一种局部感知成本,可捕获特征和空间差异。由此产生的传输计划共同平衡了token重要性和匹配成本,而其总成本定义了每个帧对的传输难度,我们使用它来动态分配压缩预算。在涵盖视频问答和时序定位的六个基准上的实验表明,OTT-Vid在仅保留10%的token的情况下,保留了95.8%的VQA和73.9%的VTG性能,始终优于现有的最先进的无训练压缩方法。

🔬 方法详解

问题定义:Video-LLM处理长视频时,视觉token数量庞大,导致计算成本显著增加。现有的无训练token压缩方法,如基于相似性或分割的方法,无法有效区分token的重要性,容易造成信息损失,且压缩强度无法自适应调整。

核心思路:OTT-Vid的核心在于利用最优传输理论,将token压缩问题转化为一个token在帧间“运输”的问题。通过计算相邻帧之间token的传输成本,评估帧对的可压缩性,并根据传输难度动态分配压缩预算。同时,考虑token的语义重要性,避免对重要token进行过度压缩。

技术框架:OTT-Vid包含两个主要阶段:1) 空间剪枝:首先对每一帧进行空间剪枝,选择具有代表性的token,减少后续计算量。2) 最优传输:在相邻帧之间求解最优传输问题,目标是找到一个最优的token匹配方案,使得总的传输成本最小。传输成本由token的特征差异和空间距离决定。根据最优传输的总成本,动态调整压缩预算。

关键创新:OTT-Vid的关键创新在于:1) 基于最优传输的压缩框架:将token压缩问题转化为最优传输问题,能够更有效地评估帧对的可压缩性。2) 非均匀token质量:在最优传输问题中,考虑token的语义重要性,对重要token赋予更高的权重,避免过度压缩。3) 局部感知成本:传输成本同时考虑token的特征差异和空间距离,使得匹配更加合理。

关键设计:OTT-Vid使用预训练的视觉编码器提取token特征。空间剪枝采用简单的基于token特征范数的选择方法。最优传输问题使用Sinkhorn算法求解。传输成本函数由特征差异的L2距离和空间距离的加权和构成。非均匀token质量通过token特征的范数进行归一化得到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OTT-Vid在六个视频问答和时序定位基准测试中表现出色。在仅保留10%的token的情况下,OTT-Vid保留了95.8%的VQA性能和73.9%的VTG性能,显著优于现有的无训练压缩方法。例如,在某个基准测试中,OTT-Vid的性能比最佳基线高出5个百分点。

🎯 应用场景

OTT-Vid可应用于各种需要处理长视频的Video-LLM应用场景,例如视频问答、视频摘要、视频编辑、视频监控等。通过降低计算成本,使得Video-LLM能够处理更长的视频,并部署在资源受限的设备上。该方法还可以促进更高效的视频数据存储和传输。

📄 摘要(原文)

As Video Large Language Models (Video-LLMs) scale to longer and more complex videos, their inference cost grows rapidly due to the large volume of visual tokens accumulated across frames. Training-free token compression has emerged as a practical solution to this bottleneck. However, existing temporal compression methods rely primarily on cross-frame token similarity or segmentation heuristics, overlooking each token's semantic role within its frame and failing to adapt compression strength to the compressibility of each frame pair. In this work, we propose OTT-Vid, a transport-derived allocation framework for temporal token compression. Our approach consists of two stages: spatial pruning identifies representative content within each frame, and optimal transport (OT) is then solved between neighboring frames to estimate temporal compressibility. We formulate this OT with non-uniform token mass, which protects semantically important tokens from aggressive compression, and a locality-aware cost that captures both feature and spatial disparities. The resulting transport plan jointly balances token importance and matching cost, while its total cost defines the transport difficulty of each frame pair, which we use to allocate compression budgets dynamically. Experiments on six benchmarks spanning video question answering and temporal grounding show that OTT-Vid preserves 95.8% of VQA and 73.9% of VTG performance while retaining only 10% of tokens, consistently outperforming existing state-of-the-art training-free compression methods.