Training-free Token Reduction for Vision Mamba

📄 arXiv: 2507.14042v1 📥 PDF

作者: Qiankun Ma, Ziyao Zhang, Chi Su, Jie Chen, Zhen Song, Hairong Zheng, Wen Gao

分类: cs.CV

发布日期: 2025-07-18


💡 一句话要点

提出MTR:一种免训练的Vision Mamba Token精简框架,提升计算效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Vision Mamba Token精简 免训练 计算效率 长程依赖

📋 核心要点

  1. 现有ViT的token精简方法依赖注意力机制,直接应用于Vision Mamba会导致性能显著下降,因为Mamba是无注意力机制的序列模型。
  2. 论文提出MTR框架,核心思想是设计一种Mamba结构感知的token重要性评分,从而在不依赖注意力机制的情况下进行token精简。
  3. 实验结果表明,MTR能够在显著降低计算量的同时,保持较小的性能损失,例如在Vim-B backbone上减少40% FLOPs,ImageNet性能仅下降1.6%。

📝 摘要(中文)

Vision Mamba作为Vision Transformer (ViT) 的有力竞争者,因其能够以线性计算复杂度有效捕获长程依赖关系而备受关注。虽然token精简作为ViT中一种有效的压缩技术,但在Vision Mamba中却很少被探索。探索Vision Mamba的效率对于实现更广泛的应用至关重要。然而,我们发现直接将现有的ViT token精简技术应用于Vision Mamba会导致显著的性能下降。这主要是因为Mamba是一种没有注意力机制的序列模型,而大多数ViT的token精简技术依赖于注意力机制进行重要性度量,并忽略了压缩token的顺序。在本文中,我们研究了一种Mamba结构感知的token重要性评分,以简单有效的方式评估token的重要性。在此基础上,我们进一步提出了MTR,一个免训练的Mamba Token精简框架。无需训练或额外的调优参数,我们的方法可以无缝地作为即插即用组件集成到各种Mamba模型中。大量的实验表明,我们的方法显著降低了计算工作量,同时最大限度地减少了各种任务和多个backbone上的性能影响。值得注意的是,MTR在Vim-B backbone上减少了约40%的FLOPs,在ImageNet性能上仅下降了1.6%,且无需重新训练。

🔬 方法详解

问题定义:论文旨在解决Vision Mamba模型计算量大的问题,特别是在高分辨率图像处理时。现有的ViT token精简方法依赖于注意力机制来评估token的重要性,这使得它们无法直接应用于Vision Mamba,因为Mamba是一种不使用注意力机制的序列模型。直接应用会导致性能显著下降。

核心思路:论文的核心思路是设计一种Mamba结构感知的token重要性评分,该评分能够反映token在Mamba模型中的重要程度,而无需依赖注意力机制。通过这种方式,可以有选择地移除不重要的token,从而减少计算量,同时保持模型的性能。

技术框架:MTR框架主要包含以下几个阶段:1) 输入token序列;2) 使用Mamba结构感知的评分函数计算每个token的重要性得分;3) 根据得分对token进行排序;4) 移除得分较低的token,保留最重要的token;5) 将精简后的token序列输入到Mamba模型中进行后续处理。整个过程是免训练的,可以作为即插即用模块集成到现有的Mamba模型中。

关键创新:最重要的技术创新点在于Mamba结构感知的token重要性评分函数的设计。该评分函数利用了Mamba模型的状态空间结构,通过分析状态变量的变化来评估token的重要性。与依赖注意力机制的方法不同,该方法能够更好地适应Mamba模型的特性。

关键设计:论文中没有明确给出评分函数的具体数学表达式,但强调了其与Mamba模型内部状态变量的关联。关键在于如何有效地利用状态变量的信息来区分token的重要性。此外,token移除的比例也是一个重要的参数,需要在计算量和性能之间进行权衡。论文提到该方法无需额外的调优参数,表明其具有较好的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MTR在Vim-B backbone上实现了约40%的FLOPs减少,同时在ImageNet数据集上仅有1.6%的性能下降,且无需重新训练。这一结果表明MTR是一种高效且易于使用的token精简方法,能够在显著降低计算成本的同时,保持良好的模型性能。该方法优于直接应用ViT token精简方法到Mamba模型。

🎯 应用场景

该研究成果可广泛应用于需要高效处理高分辨率图像或视频的场景,例如移动设备上的图像识别、实时视频分析、自动驾驶等。通过降低Vision Mamba的计算复杂度,MTR框架使得这些模型能够在资源受限的平台上部署和运行,从而加速了相关技术的落地和应用。

📄 摘要(原文)

Vision Mamba has emerged as a strong competitor to Vision Transformers (ViTs) due to its ability to efficiently capture long-range dependencies with linear computational complexity. While token reduction, an effective compression technique in ViTs, has rarely been explored in Vision Mamba. Exploring Vision Mamba's efficiency is essential for enabling broader applications. However, we find that directly applying existing token reduction techniques for ViTs to Vision Mamba leads to significant performance degradation. This is primarily because Mamba is a sequence model without attention mechanisms, whereas most token reduction techniques for ViTs rely on attention mechanisms for importance measurement and overlook the order of compressed tokens. In this paper, we investigate a Mamba structure-aware importance score to evaluate token importance in a simple and effective manner. Building on this score, we further propose MTR, a training-free \textbf{M}amba \textbf{T}oken \textbf{R}eduction framework. Without the need for training or additional tuning parameters, our method can be seamlessly integrated as a plug-and-play component across various Mamba models. Extensive experiments demonstrate that our approach significantly reduces computational workload while minimizing performance impact across various tasks and multiple backbones. Notably, MTR reduces FLOPs by approximately 40\% on the Vim-B backbone, with only a 1.6\% drop in ImageNet performance without retraining.