VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

📄 arXiv: 2601.22674v1 📥 PDF

作者: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu

分类: cs.CV

发布日期: 2026-01-30

备注: ICLR2026, Code Link: https://github.com/hanxunyu/VisionTrim

🔗 代码/项目: GITHUB


💡 一句话要点

VisionTrim:面向免训练MLLM加速的统一视觉Token压缩框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token压缩 免训练加速 文本引导 视觉理解

📋 核心要点

  1. 多模态大语言模型处理高分辨率图像或视频时,视觉token数量庞大,计算成本高昂,现有方法缺乏对文本信息的有效利用。
  2. VisionTrim框架通过主导视觉Token选择(DVTS)和文本引导的视觉补充(TGVC)两个模块,在不进行训练的情况下,实现视觉token的有效压缩。
  3. 实验结果表明,VisionTrim在图像和视频多模态任务上表现出色,能够有效加速MLLM的部署,提升实际应用性能。

📝 摘要(中文)

多模态大型语言模型(MLLMs)由于过多的视觉tokens而面临高计算成本,尤其是在高分辨率和基于视频的场景中。现有的token缩减方法通常侧重于孤立的pipeline组件,并且经常忽略文本对齐,导致性能下降。本文提出VisionTrim,一个用于免训练MLLM加速的统一框架,集成了两个有效的即插即用模块:1) 主导视觉Token选择(DVTS)模块,通过全局-局部视角保留必要的视觉tokens;2) 文本引导的视觉补充(TGVC)模块,促进由文本线索引导的上下文感知token合并。在各种图像和视频多模态基准上的大量实验证明了VisionTrim的性能优越性,从而推进了MLLM在实际应用中的部署。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在处理高分辨率图像或视频时,需要处理大量的视觉tokens,导致计算成本显著增加。现有的token缩减方法通常只关注视觉信息本身,忽略了文本信息的重要性,并且往往是针对特定pipeline组件设计的,缺乏通用性,容易导致性能下降。

核心思路:VisionTrim的核心思路是在压缩视觉tokens的同时,充分利用文本信息来指导token的选择和合并,从而在保证性能的前提下,降低计算成本。通过全局-局部视角选择关键视觉tokens,并利用文本信息补充视觉上下文,实现更有效的token压缩。

技术框架:VisionTrim是一个统一的框架,包含两个主要模块:1) Dominant Vision Token Selection (DVTS):该模块从全局和局部两个视角选择最重要的视觉tokens,保留关键信息。2) Text-Guided Vision Complement (TGVC):该模块利用文本信息引导视觉tokens的合并,补充上下文信息,避免信息丢失。这两个模块可以即插即用,方便集成到现有的MLLM框架中。

关键创新:VisionTrim的关键创新在于其统一的框架设计和对文本信息的有效利用。与现有方法相比,VisionTrim不仅考虑了视觉信息的重要性,还充分利用了文本信息来指导token的选择和合并,从而在保证性能的同时,实现了更有效的token压缩。此外,VisionTrim的即插即用特性使其能够方便地集成到各种MLLM框架中。

关键设计:DVTS模块采用全局注意力机制和局部卷积操作相结合的方式,从全局和局部两个视角选择重要的视觉tokens。TGVC模块使用文本编码器提取文本特征,并将其与视觉特征进行融合,然后利用融合后的特征来指导视觉tokens的合并。具体的参数设置和网络结构细节在论文中有详细描述,例如注意力头的数量、卷积核的大小等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisionTrim在多个图像和视频多模态基准测试中取得了显著的性能提升。实验结果表明,VisionTrim能够在不进行训练的情况下,有效压缩视觉tokens,并在保持甚至提升模型性能的同时,显著降低计算成本。具体的数据和对比结果可以在论文的实验部分找到。

🎯 应用场景

VisionTrim具有广泛的应用前景,可用于加速各种多模态大语言模型在图像和视频理解、视觉问答、视频摘要等领域的应用。通过降低计算成本,VisionTrim能够促进MLLM在资源受限设备上的部署,并提高实时应用性能。未来,该技术有望应用于自动驾驶、智能监控、机器人等领域。

📄 摘要(原文)

Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.