Adaptive MLP Pruning for Large Vision Transformers

📄 arXiv: 2603.08100v1 📥 PDF

作者: Chengchao Shen

分类: cs.CV

发布日期: 2026-03-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出自适应MLP剪枝方法,在不损失性能的前提下显著降低大型视觉Transformer的参数量。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视觉Transformer 模型剪枝 多层感知机 信息熵 自适应剪枝 模型压缩 深度学习

📋 核心要点

  1. 大型视觉Transformer参数量巨大,导致计算和存储成本高昂,需要有效的模型压缩方法。
  2. 提出自适应MLP剪枝(AMP)方法,利用无标签信息熵准则更准确地评估神经元的重要性,并自适应地剪枝。
  3. 实验表明,AMP方法在CLIP和DINOv2等模型上实现了约40%的参数和FLOPs减少,且性能损失很小。

📝 摘要(中文)

大型视觉Transformer展现出卓越的可扩展性,模型性能随容量增加而显著提升。然而,其庞大的参数量导致高昂的计算和内存需求。通过分析主流Transformer结构,我们发现多层感知机(MLP)模块占据了模型参数的最大份额。本文提出一种自适应MLP剪枝(AMP)方法,在不明显降低性能的前提下,大幅减少大型视觉Transformer的参数量。首先,我们采用基于泰勒展开的方法评估MLP神经元的重要性。然而,使用one-hot交叉熵损失的重要性计算忽略了对其他类别的潜在预测,从而降低了评估的重要性分数的质量。为了解决这个问题,我们引入无标签信息熵准则,充分建模原始模型的预测,以实现更准确的重要性评估。其次,我们根据上述重要性分数对MLP的隐藏神经元进行排序,并应用二分搜索算法,根据不同MLP模块的冗余自适应地剪枝排序后的神经元,从而避免预定义的压缩率。在包括CLIP和DINOv2在内的多个最先进的大型视觉Transformer上的实验结果表明,我们的方法以近乎无损的方式实现了大约40%的参数和FLOPs减少。此外,当模型在剪枝后不进行微调时,我们的方法明显优于其他剪枝方法。源代码和训练权重可在https://github.com/visresearch/AMP获得。

🔬 方法详解

问题定义:大型视觉Transformer模型参数量巨大,计算和存储成本高昂。现有剪枝方法通常依赖于预定义的压缩率,无法充分利用不同MLP模块的冗余度。此外,基于one-hot交叉熵损失的重要性评估方法忽略了对其他类别的潜在预测,导致重要性评估不准确。

核心思路:通过更准确地评估MLP神经元的重要性,并根据不同模块的冗余度自适应地进行剪枝,从而在不损失性能的前提下减少模型参数量。核心在于使用无标签信息熵准则来建模原始模型的预测,从而更全面地评估神经元的重要性。

技术框架:AMP方法主要包含两个阶段:1) 基于无标签信息熵的重要性评估;2) 基于二分搜索的自适应剪枝。首先,利用泰勒展开法计算神经元的重要性,并使用无标签信息熵准则修正重要性分数。然后,根据重要性分数对神经元进行排序,并使用二分搜索算法自适应地确定每个MLP模块的剪枝比例。

关键创新:关键创新在于引入了无标签信息熵准则来改进神经元重要性的评估。传统的基于one-hot交叉熵损失的方法只考虑了正确类别的预测,而忽略了其他类别的预测。无标签信息熵准则则考虑了所有类别的预测,从而更全面地反映了神经元对模型输出的影响。

关键设计:无标签信息熵的计算公式为:H(p) = - Σ p(i) log p(i),其中p(i)是模型对第i个类别的预测概率。该熵值用于修正基于泰勒展开法计算得到的重要性分数。二分搜索算法用于自适应地确定每个MLP模块的剪枝比例,目标是在满足性能约束的前提下最大化剪枝率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AMP方法在CLIP和DINOv2等大型视觉Transformer模型上实现了约40%的参数和FLOPs减少,且性能损失很小。在不进行微调的情况下,AMP方法明显优于其他剪枝方法,表明其具有更好的泛化能力和鲁棒性。例如,在ImageNet数据集上,使用AMP剪枝后的ViT-B模型在不进行微调的情况下,精度仅下降了不到1%。

🎯 应用场景

该研究成果可应用于各种需要部署大型视觉Transformer模型的场景,例如移动设备上的图像识别、自动驾驶中的目标检测、以及资源受限环境下的视觉任务。通过降低模型参数量和计算复杂度,可以有效减少部署成本,提高推理速度,并降低能耗。

📄 摘要(原文)

Large vision transformers present impressive scalability, as their performance can be well improved with increased model capacity. Nevertheless, their cumbersome parameters results in exorbitant computational and memory demands. By analyzing prevalent transformer structures, we find that multilayer perceptron (MLP) modules constitute the largest share of the model's parameters. In this paper, we propose an Adaptive MLP Pruning (AMP) method to substantially reduce the parameters of large vision transformers without obvious performance degradation. First, we adopt Taylor based method to evaluate neuron importance of MLP. However, the importance computation using one-hot cross entropy loss ignores the potential predictions on other categories, thus degrading the quality of the evaluated importance scores. To address this issue, we introduce label-free information entropy criterion to fully model the predictions of the original model for more accurate importance evaluation. Second, we rank the hidden neurons of MLP by the above importance scores and apply binary search algorithm to adaptively prune the ranked neurons according to the redundancy of different MLP modules, thereby avoiding the predefined compression ratio. Experimental results on several state-of-the-art large vision transformers, including CLIP and DINOv2, demonstrate that our method achieves roughly 40\% parameter and FLOPs reduction in a near lossless manner. Moreover, when the models are not finetuned after pruning, our method outperforms other pruning methods by significantly large margin. The source code and trained weights are available at https://github.com/visresearch/AMP.