LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models

📄 arXiv: 2408.10631v2 📥 PDF

作者: Yupeng Su, Ziyi Guan, Xiaoqun Liu, Tianlai Jin, Dongkuan Wu, Zhengfei Chen, Graziano Chesi, Ngai Wong, Hao Yu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-08-20 (更新: 2025-07-26)

备注: Accepted by ICCAD 2025

DOI: 10.1109/ICCAD66269.2025.11240704

🔗 代码/项目: GITHUB


💡 一句话要点

LLM-Barber:一种面向大语言模型的一次性块感知稀疏掩码重建方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型剪枝 后训练剪枝 稀疏掩码 块感知优化

📋 核心要点

  1. 现有后训练剪枝方法忽略了剪枝过程中权重重要性的变化,导致性能下降。
  2. LLM-Barber通过块感知误差优化重建稀疏掩码,无需重训练或权重重建。
  3. 实验表明,LLM-Barber在困惑度和零样本性能上均取得了SOTA结果,且计算效率高。

📝 摘要(中文)

大型语言模型(LLMs)的规模不断增长,因此需要高效的模型剪枝技术。现有的后训练剪枝方法主要在收敛的稠密模型中衡量权重的重要性,通常忽略了剪枝过程中权重重要性的变化,导致性能下降。为了解决这个问题,我们提出了LLM-Barber(Block-Aware Rebuilder for Sparsity Mask in One-Shot),这是一个新颖的一次性剪枝框架,无需任何重训练或权重重建即可重建剪枝模型的稀疏掩码。LLM-Barber在自注意力(Self-Attention)和MLP块中结合了块感知的误差优化,从而实现全局性能优化。我们首次在LLM后训练剪枝的背景下,采用权重和梯度的乘积作为剪枝指标。与使用二阶信息的方法相比,这能够准确识别大规模模型中权重的重要性,并显著降低计算复杂度。实验表明,LLM-Barber可以在单个A100 GPU上仅用30分钟有效地剪枝LLaMA和OPT系列模型(7B到13B),并在各种语言基准测试中实现了最先进的困惑度和零样本性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)后训练剪枝过程中,现有方法因忽略剪枝过程中权重重要性变化而导致的性能下降问题。现有方法通常在收敛的稠密模型上评估权重重要性,无法适应剪枝带来的权重分布变化,导致剪枝后的模型性能不佳。

核心思路:LLM-Barber的核心思路是在一次性剪枝过程中,通过块感知误差优化来动态重建稀疏掩码,从而更好地适应剪枝带来的权重变化。该方法无需重训练或权重重建,降低了计算成本。通过优化稀疏掩码,保留更重要的连接,提高剪枝后模型的性能。

技术框架:LLM-Barber框架主要包含以下几个阶段:1) 前向传播计算权重和梯度的乘积,作为权重重要性指标;2) 在自注意力(Self-Attention)和MLP块中进行块感知误差优化,确定每个块内的重要权重;3) 根据权重重要性指标和块感知误差优化结果,重建稀疏掩码;4) 应用重建后的稀疏掩码进行模型推理。

关键创新:LLM-Barber的关键创新在于:1) 提出了一种新的剪枝指标,即权重和梯度的乘积,能够更准确地反映权重在剪枝过程中的重要性;2) 引入了块感知误差优化,能够更好地适应不同块之间的权重分布差异,实现全局性能优化;3) 实现了无需重训练或权重重建的一次性剪枝,大大降低了计算成本。

关键设计:LLM-Barber的关键设计包括:1) 权重和梯度的乘积作为剪枝指标,平衡了权重的大小和梯度信息;2) 块感知误差优化,针对Self-Attention和MLP块分别进行优化;3) 稀疏掩码重建策略,根据权重重要性和块感知误差优化结果,动态调整掩码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLM-Barber在LLaMA和OPT系列模型(7B到13B)上进行了实验,在单个A100 GPU上仅用30分钟即可完成剪枝。实验结果表明,LLM-Barber在各种语言基准测试中实现了最先进的困惑度和零样本性能,优于现有的后训练剪枝方法。代码已开源。

🎯 应用场景

LLM-Barber可应用于各种需要高效部署大型语言模型的场景,例如移动设备、边缘计算和资源受限的环境。通过降低模型大小和计算复杂度,LLM-Barber能够加速模型推理,降低能耗,并提高模型的可用性。该方法还有助于推动大语言模型在实际应用中的普及。

📄 摘要(原文)

Large language models (LLMs) have seen substantial growth, necessitating efficient model pruning techniques. Existing post-training pruning methods primarily measure weight importance in converged dense models, often overlooking changes in weight significance during the pruning process, leading to performance degradation. To address this issue, we present LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot), a novel one-shot pruning framework that rebuilds the sparsity mask of pruned models without any retraining or weight reconstruction. LLM-Barber incorporates block-aware error optimization across Self-Attention and MLP blocks, facilitating global performance optimization. We are the first to employ the product of weights and gradients as a pruning metric in the context of LLM post-training pruning. This enables accurate identification of weight importance in massive models and significantly reduces computational complexity compared to methods using secondorder information. Our experiments show that LLM-Barber efficiently prunes models from LLaMA and OPT families (7B to 13B) on a single A100 GPU in just 30 minutes, achieving state-of-the-art results in both perplexity and zero-shot performance across various language benchmarks. Code is available at https://github.com/YupengSu/LLM-Barber.