EarlyTom: Early Token Compression Completes Fast Video Understanding
作者: Hesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang
分类: cs.CV
发布日期: 2026-05-28
备注: Accepted by CVPR 2026. 16 pages, 8 figures, 8 tables. Project page: https://viridisgreen.github.io/EarlyTom
💡 一句话要点
EarlyTom:早期Token压缩加速视频理解,显著降低时间延迟。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 Token压缩 视觉编码器 首个Token生成时间 视频理解 模型加速 低延迟
📋 核心要点
- 现有Video-LLM方法在视觉编码效率上存在瓶颈,主要在预填充后期进行token压缩,忽略了视觉编码器本身的时间消耗。
- EarlyTom框架的核心在于在视觉编码器内部进行早期token压缩,减少首个token生成时间(TTFT),提升整体吞吐量。
- 实验表明,EarlyTom在LLaVA-OneVision-7B模型上,TTFT降低高达2.65倍,FLOPs降低高达61%,且精度与全token基线相当。
📝 摘要(中文)
视频大语言模型(Video-LLMs)在视频理解任务中表现出强大的能力。然而,处理大量视觉tokens带来的低效率阻碍了它们的实际部署。尽管最近的方法在保持与全token基线相当的准确性的同时,实现了极低的token保留率,但它们大多只在预填充的后期阶段进行压缩,使得视觉编码器的效率未得到优化。本文首先表明,视觉编码在首个token生成时间(TTFT)中贡献很大。因此,与仅在视觉编码器之后压缩视觉token不同,在编码器内部执行压缩仍然有很大的探索空间。基于这一洞察,我们提出了EarlyTom,一个无需训练的token压缩框架,它在视觉编码器内部执行早期视觉token压缩,从而显著降低TTFT并提高吞吐量。此外,我们引入了一种解耦的空间token选择策略,提高了整体压缩效果。在单个NVIDIA A100 GPU上,对于LLaVA-OneVision-7B模型,EarlyTom将TTFT降低了高达2.65倍,FLOPs降低了高达61%,同时保持了与全token基线相当的准确性。这些改进大大提高了在实际生产场景中部署Video-LLMs的实用性。
🔬 方法详解
问题定义:论文旨在解决Video-LLM中视觉编码效率低下的问题,现有方法主要在视觉编码后进行token压缩,忽略了视觉编码器本身带来的延迟,导致首个token生成时间(TTFT)较长,限制了Video-LLM的实际应用。
核心思路:论文的核心思路是在视觉编码器内部进行早期token压缩,即在视觉特征提取的早期阶段就减少token数量,从而降低视觉编码器的计算负担,缩短TTFT。通过更早地减少需要处理的token数量,可以显著提高整体效率。
技术框架:EarlyTom框架主要包含以下几个阶段:首先,视频帧输入视觉编码器;然后,在视觉编码器的早期层进行token压缩,减少token数量;接着,继续进行视觉特征提取,得到压缩后的视觉特征表示;最后,将视觉特征输入LLM进行视频理解。框架的关键在于token压缩模块的位置和压缩策略。
关键创新:EarlyTom的关键创新在于将token压缩提前到视觉编码器内部,实现了早期token压缩。与现有方法仅在视觉编码后进行压缩不同,EarlyTom更早地减少了计算量,从而更有效地降低了TTFT。此外,论文还提出了解耦的空间token选择策略,进一步提升了压缩效果。
关键设计:EarlyTom使用了一种解耦的空间token选择策略。具体来说,它将token选择过程分解为两个独立的步骤:首先,根据token的重要性进行初步筛选;然后,根据token的空间分布进行调整,以确保保留的token能够覆盖视频帧的各个区域。这种解耦策略可以更好地平衡token的重要性和空间分布,从而提高压缩效果。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
EarlyTom在LLaVA-OneVision-7B模型上进行了实验,结果表明,在单个NVIDIA A100 GPU上,EarlyTom将TTFT降低了高达2.65倍,FLOPs降低了高达61%,同时保持了与全token基线相当的准确性。这些结果表明,EarlyTom能够显著提高Video-LLM的效率,使其更适用于实际应用。
🎯 应用场景
EarlyTom的潜在应用领域包括实时视频理解、视频监控、智能交通、视频会议等。通过降低Video-LLM的延迟和提高吞吐量,EarlyTom可以使其更适用于对实时性要求较高的场景,例如自动驾驶、机器人导航等。该研究的实际价值在于提高了Video-LLM的实用性,使其更容易部署在实际生产环境中。未来,EarlyTom可以进一步扩展到其他多模态任务中,例如图像描述、语音识别等。
📄 摘要(原文)
Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.