VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs

作者: Jiaying Zhu, Yurui Zhu, Xin Lu, Wenrui Yan, Dong Li, Kunlin Liu, Xueyang Fu, Zheng-Jun Zha

分类: cs.CV

发布日期: 2025-10-18

备注: 22 pages, 8 figures

🔗 代码/项目: GITHUB

💡 一句话要点

VisionSelector：端到端可学习的视觉Token压缩，提升多模态LLM效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉Token压缩 大型语言模型 端到端学习 自适应选择

📋 核心要点

多模态LLM处理高分辨率图像时，视觉token数量庞大，导致计算和内存瓶颈，现有压缩方法依赖启发式规则，易丢失关键信息。
VisionSelector将token压缩转化为端到端可学习的决策过程，通过可微Top-K机制和课程退火策略，实现高效自适应的token选择。
实验表明，VisionSelector在各种压缩率下均表现出色，在MME数据集上，30%保留预算下保持100%准确率，10%保留预算下优于现有方法12.14%。

📝 摘要（中文）

多模态大型语言模型(MLLM)在高分辨率图像或多图像输入产生的大量视觉token时，面临着显著的计算和内存瓶颈。先前的token压缩技术通常受限于启发式规则，这可能导致关键信息的丢失。它们也可能受到偏差的影响，例如注意力沉没，这会导致在激进的压缩率下性能急剧下降。为了解决这些限制，我们将token压缩重新定义为一个轻量级的即插即用框架，将其转化为端到端的可学习决策过程。具体来说，我们提出了VisionSelector，一个与MLLM骨干网络解耦的评分模块，它结合了可微的Top-K机制和课程退火策略，以弥合训练-推理差距，从而实现各种任意压缩率下的高效和自适应token选择。VisionSelector非常轻量级，只有1285万个可训练参数，它展示了跨各种压缩率的泛化能力，并能自适应地识别关键token。这带来了在所有压缩预算下的卓越性能，通过在30%保留预算下保持MME的100%准确率，在10%保留预算下优于先前方法12.14%，以及预填充速度翻倍来证明。

🔬 方法详解

问题定义：多模态大型语言模型（MLLMs）在处理高分辨率图像或多图输入时，会产生大量的视觉tokens，这导致了显著的计算和内存瓶颈。现有的token压缩方法通常依赖于启发式规则，这些规则可能会丢弃关键信息，并且容易受到注意力沉没等偏差的影响，从而在高度压缩的情况下导致性能显著下降。

核心思路：论文的核心思路是将token压缩问题重新定义为一个端到端可学习的决策过程。通过学习一个评分函数来评估每个视觉token的重要性，并选择最重要的token进行保留，从而在保证性能的同时减少计算负担。这种方法避免了启发式规则的局限性，并且能够自适应地选择对模型性能影响最大的token。

技术框架：VisionSelector框架主要包含两个部分：视觉token编码器（通常是预训练的视觉模型）和VisionSelector模块。视觉token编码器负责将输入图像转换为视觉token序列。VisionSelector模块则对每个token进行评分，并使用可微的Top-K选择机制选择最重要的K个token。整个框架可以端到端地进行训练，以优化token选择策略。

关键创新：该论文的关键创新在于将token压缩问题转化为一个可学习的决策过程，并提出了VisionSelector模块来实现这一目标。VisionSelector模块通过可微的Top-K选择机制，能够在训练过程中学习到哪些token对于模型性能至关重要，从而实现自适应的token选择。此外，论文还引入了课程退火策略，以弥合训练和推理之间的差距，提高模型的泛化能力。

关键设计：VisionSelector模块是一个轻量级的神经网络，包含多个线性层和激活函数。其输入是视觉token编码器的输出，输出是每个token的评分。可微的Top-K选择机制使用Gumbel-Softmax技巧来实现。课程退火策略通过在训练初期使用较小的压缩率，然后逐渐增加压缩率，来帮助模型更好地学习token的重要性。损失函数通常包括一个交叉熵损失和一个正则化项，以鼓励模型选择更少的token。

🖼️ 关键图片

📊 实验亮点

VisionSelector在多个基准测试中取得了显著的性能提升。在MME数据集上，使用30%的保留预算时，VisionSelector能够保持100%的准确率。在10%的保留预算下，VisionSelector的性能优于现有方法12.14%。此外，VisionSelector还能够将预填充速度提高一倍。这些结果表明，VisionSelector是一种高效且有效的视觉token压缩方法。

🎯 应用场景

VisionSelector具有广泛的应用前景，可以应用于各种需要处理高分辨率图像或多图输入的MLLM任务中，例如图像描述、视觉问答、图像分类等。通过减少视觉token的数量，VisionSelector可以显著降低计算成本和内存需求，从而使得MLLM能够在资源受限的设备上运行，并提高推理速度。该研究对于推动多模态人工智能的发展具有重要意义。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) encounter significant computational and memory bottlenecks from the massive number of visual tokens generated by high-resolution images or multi-image inputs. Previous token compression techniques are often constrained by heuristic rules that risk discarding critical information. They may suffer from biases, such as attention sinks, that lead to sharp performance drops under aggressive compression ratios. To address these limitations, we reformulate token compression as a lightweight plug-and-play framework that reformulates token compression into an end-to-end learnable decision process. To be specific, we propose VisionSelector, a scorer module decoupled from the MLLM backbone that incorporates a differentiable Top-K mechanism and a curriculum annealing strategy to bridge the training-inference gap, enabling efficient and adaptive token selection various arbitrary compression rates. Remarkably lightweight with only 12.85M trainable parameters, VisionSelector demonstrates generalization across various compression rates and adaptively identifying critical tokens. This leads to superior performance across all compression budgets, evidenced by preserving 100% accuracy on MME with 30% retention budget, outperforming prior methods by 12.14% at 10% retention budget, and doubling prefill speed. Our code is available at https://github.com/JulietChoo/VisionSelector .

VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理