VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

作者: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu

分类: cs.CV

发布日期: 2026-01-30

备注: ICLR2026, Code Link: https://github.com/hanxunyu/VisionTrim

🔗 代码/项目: GITHUB

💡 一句话要点

VisionTrim：面向免训练MLLM加速的统一视觉Token压缩框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token压缩 免训练加速 文本引导 视觉理解

📋 核心要点

多模态大语言模型处理高分辨率图像或视频时，视觉token数量庞大，计算成本高昂，现有方法缺乏对文本信息的有效利用。
VisionTrim框架通过主导视觉Token选择(DVTS)和文本引导的视觉补充(TGVC)两个模块，在不进行训练的情况下，实现视觉token的有效压缩。
实验结果表明，VisionTrim在图像和视频多模态任务上表现出色，能够有效加速MLLM的部署，提升实际应用性能。

📝 摘要（中文）

多模态大型语言模型(MLLMs)由于过多的视觉tokens而面临高计算成本，尤其是在高分辨率和基于视频的场景中。现有的token缩减方法通常侧重于孤立的pipeline组件，并且经常忽略文本对齐，导致性能下降。本文提出VisionTrim，一个用于免训练MLLM加速的统一框架，集成了两个有效的即插即用模块：1) 主导视觉Token选择(DVTS)模块，通过全局-局部视角保留必要的视觉tokens；2) 文本引导的视觉补充(TGVC)模块，促进由文本线索引导的上下文感知token合并。在各种图像和视频多模态基准上的大量实验证明了VisionTrim的性能优越性，从而推进了MLLM在实际应用中的部署。

🔬 方法详解

问题定义：多模态大语言模型（MLLM）在处理高分辨率图像或视频时，需要处理大量的视觉tokens，导致计算成本显著增加。现有的token缩减方法通常只关注视觉信息本身，忽略了文本信息的重要性，并且往往是针对特定pipeline组件设计的，缺乏通用性，容易导致性能下降。

核心思路：VisionTrim的核心思路是在压缩视觉tokens的同时，充分利用文本信息来指导token的选择和合并，从而在保证性能的前提下，降低计算成本。通过全局-局部视角选择关键视觉tokens，并利用文本信息补充视觉上下文，实现更有效的token压缩。

技术框架：VisionTrim是一个统一的框架，包含两个主要模块：1) Dominant Vision Token Selection (DVTS)：该模块从全局和局部两个视角选择最重要的视觉tokens，保留关键信息。2) Text-Guided Vision Complement (TGVC)：该模块利用文本信息引导视觉tokens的合并，补充上下文信息，避免信息丢失。这两个模块可以即插即用，方便集成到现有的MLLM框架中。

关键创新：VisionTrim的关键创新在于其统一的框架设计和对文本信息的有效利用。与现有方法相比，VisionTrim不仅考虑了视觉信息的重要性，还充分利用了文本信息来指导token的选择和合并，从而在保证性能的同时，实现了更有效的token压缩。此外，VisionTrim的即插即用特性使其能够方便地集成到各种MLLM框架中。

关键设计：DVTS模块采用全局注意力机制和局部卷积操作相结合的方式，从全局和局部两个视角选择重要的视觉tokens。TGVC模块使用文本编码器提取文本特征，并将其与视觉特征进行融合，然后利用融合后的特征来指导视觉tokens的合并。具体的参数设置和网络结构细节在论文中有详细描述，例如注意力头的数量、卷积核的大小等。

🖼️ 关键图片

📊 实验亮点

VisionTrim在多个图像和视频多模态基准测试中取得了显著的性能提升。实验结果表明，VisionTrim能够在不进行训练的情况下，有效压缩视觉tokens，并在保持甚至提升模型性能的同时，显著降低计算成本。具体的数据和对比结果可以在论文的实验部分找到。

🎯 应用场景

VisionTrim具有广泛的应用前景，可用于加速各种多模态大语言模型在图像和视频理解、视觉问答、视频摘要等领域的应用。通过降低计算成本，VisionTrim能够促进MLLM在资源受限设备上的部署，并提高实时应用性能。未来，该技术有望应用于自动驾驶、智能监控、机器人等领域。

📄 摘要（原文）

Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理