Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity
作者: Chi Xu, Gefei Zhang, Yantong Zhu, Luca Benini, Guosheng Hu, Yawei Li, Zhihong Zhang
分类: cs.CL
发布日期: 2025-03-14
💡 一句话要点
提出一种即插即用的混合稀疏度剪枝方法,用于大语言模型的极端压缩。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型剪枝 结构化剪枝 混合稀疏度 Fisher信息矩阵
📋 核心要点
- 现有大语言模型剪枝方法主要依赖于设计重要性指标,忽略了不同层对模型性能的敏感度差异。
- 论文提出混合稀疏度剪枝(MSP)方法,利用Fisher信息矩阵(FIM)量化层敏感度,并用进化算法(EA)优化各层稀疏度。
- 实验表明,在LLaMA和LLaMA-2上,MSP在极端剪枝率下显著优于现有方法,困惑度降低明显。
📝 摘要(中文)
N:M结构化剪枝对于大语言模型(LLMs)至关重要,因为它能够移除不重要的网络权重,并降低内存和计算需求。现有的剪枝方法主要集中在设计指标来衡量网络组件的重要性,从而指导剪枝。除了这些指标的影响外,我们观察到不同的层对网络性能具有不同的敏感性。因此,我们提出了一种基于Fisher信息矩阵(FIM)迹的高效方法,以定量地测量和验证不同层之间的不同敏感性。在此基础上,我们提出了混合稀疏度剪枝(MSP),它使用面向剪枝的进化算法(EA)来确定不同层的最佳稀疏度水平。为了保证快速收敛并获得有希望的性能,我们利用高效的FIM启发的层级敏感性来初始化EA的种群。此外,我们的MSP可以作为一个即插即用模块,随时集成到现有的剪枝方法中。在LLaMA和LLaMA-2上进行的语言建模和零样本任务的大量实验证明了我们卓越的性能。特别是在极端的剪枝率(例如75%)下,我们的方法在困惑度(PPL)方面明显优于现有方法,数量级上有所提升(图1)。
🔬 方法详解
问题定义:现有的大语言模型剪枝方法通常采用统一的稀疏度策略,忽略了不同层对模型性能的敏感度差异。这意味着某些对性能影响较小的层可能被过度剪枝,而对性能至关重要的层则可能剪枝不足,从而导致整体性能下降。因此,如何为不同的层分配合适的稀疏度,以在保证模型性能的同时最大化压缩率,是一个亟待解决的问题。
核心思路:论文的核心思路是根据每一层对模型性能的敏感度,自适应地调整其稀疏度。具体来说,论文利用Fisher信息矩阵(FIM)的迹来量化每一层的敏感度,FIM的迹越大,表示该层对模型性能的影响越大,因此应该分配较低的稀疏度。反之,FIM的迹越小,表示该层对模型性能的影响越小,因此可以分配较高的稀疏度。通过这种方式,可以实现对不同层的差异化剪枝,从而在保证模型性能的同时最大化压缩率。
技术框架:MSP方法主要包含以下几个阶段:1) 敏感度分析:使用Fisher信息矩阵(FIM)的迹来量化每一层的敏感度。2) 进化算法(EA)优化:使用EA来搜索每一层的最佳稀疏度。EA的种群初始化使用FIM启发的层级敏感性。3) 剪枝:根据EA搜索到的稀疏度,对每一层进行剪枝。4) 微调:对剪枝后的模型进行微调,以恢复模型性能。整个框架可以作为一个即插即用模块,集成到现有的剪枝方法中。
关键创新:论文的关键创新在于提出了混合稀疏度剪枝(MSP)方法,该方法能够根据每一层对模型性能的敏感度,自适应地调整其稀疏度。与现有的剪枝方法相比,MSP方法能够更好地平衡模型性能和压缩率,从而在极端剪枝率下获得更好的性能。此外,MSP方法可以作为一个即插即用模块,集成到现有的剪枝方法中,从而提高现有方法的性能。
关键设计:1) FIM的计算:论文使用了一种高效的方法来计算FIM的迹,从而降低了计算复杂度。2) EA的种群初始化:论文使用FIM启发的层级敏感性来初始化EA的种群,从而加速了EA的收敛速度。3) 稀疏度约束:论文对每一层的稀疏度进行了约束,以保证模型的可训练性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LLaMA和LLaMA-2上,MSP方法在极端剪枝率(例如75%)下显著优于现有方法,困惑度(PPL)降低了多个数量级。这表明MSP方法能够有效地平衡模型性能和压缩率,从而在极端剪枝率下获得更好的性能。
🎯 应用场景
该研究成果可广泛应用于大语言模型的部署和推理加速,尤其是在资源受限的边缘设备上。通过极端剪枝,可以显著降低模型大小和计算复杂度,从而实现更高效的推理。此外,该方法还可以应用于其他深度学习模型的压缩,具有广泛的应用前景。
📄 摘要(原文)
N:M structured pruning is essential for large language models (LLMs) because it can remove less important network weights and reduce the memory and computation requirements. Existing pruning methods mainly focus on designing metrics to measure the importance of network components to guide pruning. Apart from the impact of these metrics, we observe that different layers have different sensitivities over the network performance. Thus, we propose an efficient method based on the trace of Fisher Information Matrix (FIM) to quantitatively measure and verify the different sensitivities across layers. Based on this, we propose Mixed Sparsity Pruning (MSP) which uses a pruning-oriented evolutionary algorithm (EA) to determine the optimal sparsity levels for different layers. To guarantee fast convergence and achieve promising performance, we utilize efficient FIM-inspired layer-wise sensitivity to initialize the population of EA. In addition, our MSP can work as a plug-and-play module, ready to be integrated into existing pruning methods. Extensive experiments on LLaMA and LLaMA-2 on language modeling and zero-shot tasks demonstrate our superior performance. In particular, in extreme pruning ratio (e.g. 75%), our method significantly outperforms existing methods in terms of perplexity (PPL) by orders of magnitude (Figure 1).