Wanda++: Pruning Large Language Models via Regional Gradients
作者: Yifan Yang, Kai Zhen, Bhavana Ganesh, Aram Galstyan, Goeric Huybrechts, Markus Müller, Jonas M. Kübler, Rupak Vignesh Swaminathan, Athanasios Mouchtaris, Sravan Babu Bodapati, Nathan Susanj, Zheng Zhang, Jack FitzGerald, Abhishek Kumar
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-03-06 (更新: 2025-06-01)
备注: Paper accepted at ACL 2025 Findings
💡 一句话要点
Wanda++:利用区域梯度剪枝大语言模型,显著提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型剪枝 区域梯度 模型压缩 推理加速 稀疏感知微调 解码器块 区域优化
📋 核心要点
- 现有LLM剪枝方法在没有稀疏感知微调时,精度下降明显,难以在推理加速和精度保持间取得平衡。
- Wanda++利用解码器块级别的区域梯度改进剪枝评分,并提出区域优化方法最小化剪枝带来的输出差异。
- 实验表明,Wanda++在语言建模任务中困惑度显著降低,且能有效推广至下游任务,剪枝速度快。
📝 摘要(中文)
本文提出了一种新的大语言模型(LLMs)剪枝框架Wanda++,旨在移除不重要的权重以加速推理,同时最小化精度损失。现有方法通常在没有进行全模型稀疏感知微调的情况下,会遭受精度下降。Wanda++通过利用解码器块级别的区域梯度,优于现有最先进的方法。具体来说,Wanda++首次使用区域梯度改进了剪枝评分,并提出了一种有效的区域优化方法,以最小化稠密解码器和稀疏解码器输出之间的剪枝引起的输出差异。值得注意的是,Wanda++在语言建模任务中,困惑度比Wanda提高了高达32%,并且有效地推广到下游任务。此外,尽管使用区域优化更新权重,Wanda++仍然与稀疏感知微调正交,从而通过LoRA进一步降低了困惑度。我们的方法是轻量级的,可以在单个H100 GPU上在不到10分钟的时间内剪枝一个7B LLaMA模型。
🔬 方法详解
问题定义:大语言模型剪枝旨在移除模型中不重要的权重,从而加速推理过程并降低计算资源消耗。然而,现有的剪枝方法通常需要在剪枝后进行全模型的稀疏感知微调才能避免显著的精度损失,这增加了计算成本和时间开销。因此,如何在不进行或少量微调的情况下,实现高效且高精度的LLM剪枝是一个关键问题。
核心思路:Wanda++的核心思路是利用解码器块级别的区域梯度信息来指导剪枝过程。通过分析不同区域(解码器块)的梯度,可以更准确地识别出对模型性能影响较小的权重,从而进行更有针对性的剪枝。此外,Wanda++还提出了一种区域优化方法,旨在最小化剪枝操作对模型输出的影响,进一步提升剪枝后的模型性能。
技术框架:Wanda++的整体框架主要包含以下几个步骤:1) 计算解码器块级别的区域梯度;2) 基于区域梯度计算剪枝评分,用于评估权重的相对重要性;3) 根据剪枝评分对模型进行剪枝,移除不重要的权重;4) 使用区域优化方法对剪枝后的模型进行微调,以恢复因剪枝造成的性能损失。该框架可以与现有的稀疏感知微调方法结合使用,以进一步提升模型性能。
关键创新:Wanda++的关键创新在于首次将区域梯度信息引入到LLM剪枝过程中。与传统的基于全局梯度的剪枝方法相比,Wanda++能够更精细地评估不同区域的权重重要性,从而实现更有效的剪枝。此外,Wanda++提出的区域优化方法能够有效地减少剪枝带来的输出差异,进一步提升剪枝后的模型性能。
关键设计:Wanda++的关键设计包括:1) 使用解码器块作为区域划分的粒度,因为解码器块是LLM的基本组成单元,具有相对独立的功能;2) 采用特定的梯度计算方法,以确保能够准确地反映权重对模型输出的影响;3) 设计合适的损失函数,用于指导区域优化过程,目标是最小化稠密模型和稀疏模型之间的输出差异。具体参数设置和损失函数选择可能需要根据不同的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
Wanda++在语言建模任务中,相较于Wanda,困惑度降低了高达32%。在下游任务中也表现出良好的泛化能力。此外,Wanda++可以在单个H100 GPU上,在10分钟内完成对7B LLaMA模型的剪枝,表明其具有高效的剪枝速度。与稀疏感知微调方法结合使用时,Wanda++可以进一步降低困惑度。
🎯 应用场景
Wanda++在资源受限的场景下具有广泛的应用前景,例如移动设备、边缘计算和嵌入式系统。通过剪枝降低模型大小和计算复杂度,可以使LLM在这些平台上高效运行。此外,Wanda++还可以用于加速LLM的推理速度,提高用户体验,并降低云计算成本。该技术对推动LLM在各行业的普及具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) pruning seeks to remove unimportant weights for inference speedup with minimal accuracy impact. However, existing methods often suffer from accuracy degradation without full-model sparsity-aware fine-tuning. This paper presents Wanda++, a novel pruning framework that outperforms the state-of-the-art methods by utilizing decoder-block-level \textbf{regional} gradients. Specifically, Wanda++ improves the pruning score with regional gradients for the first time and proposes an efficient regional optimization method to minimize pruning-induced output discrepancies between the dense and sparse decoder output. Notably, Wanda++ improves perplexity by up to 32\% over Wanda in the language modeling task and generalizes effectively to downstream tasks. Moreover, despite updating weights with regional optimization, Wanda++ remains orthogonal to sparsity-aware fine-tuning, further reducing perplexity with LoRA in great extend. Our approach is lightweight, pruning a 7B LLaMA model in under 10 minutes on a single H100 GPU.