DLP: Dynamic Layerwise Pruning in Large Language Models

📄 arXiv: 2505.23807v3 📥 PDF

作者: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang

分类: cs.CL, cs.AI

发布日期: 2025-05-27 (更新: 2025-06-03)

备注: Accepted by ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

DLP:一种用于大语言模型的动态层级剪枝方法,提升高稀疏度下的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型剪枝 动态剪枝 层级剪枝 模型压缩

📋 核心要点

  1. 现有大语言模型剪枝方法采用均匀层级剪枝,忽略了不同层的重要性差异,导致高稀疏度下性能显著下降。
  2. DLP方法通过整合模型权重和输入激活信息,自适应地确定每一层的重要性,并动态分配剪枝率。
  3. 实验表明,DLP在70%稀疏度下,显著提升了LLaMA2-7B的性能,降低了困惑度并提高了平均准确率。

📝 摘要(中文)

本文提出了一种名为动态层级剪枝(DLP)的新方法,旨在解决大语言模型(LLM)中在高稀疏度下性能严重下降的问题。主流剪枝技术通常采用均匀的层级剪枝策略,忽略了不同层对模型性能的贡献差异。DLP通过整合模型权重和输入激活信息,自适应地确定每一层的重要性,并据此分配剪枝率。实验结果表明,DLP能够有效保持模型在高稀疏度下的性能。具体而言,在70%的稀疏度下,DLP相较于现有最佳方法,将LLaMA2-7B的困惑度降低了7.79,平均准确率提高了2.7%。此外,DLP与现有的LLM压缩技术兼容,并且可以无缝集成到参数高效微调(PEFT)中。代码已开源。

🔬 方法详解

问题定义:大语言模型剪枝旨在减少模型参数量和提高推理效率。然而,现有方法通常采用均匀的层级剪枝策略,即对所有层应用相同的剪枝比例。这种策略忽略了不同层对模型性能的贡献差异,导致在高稀疏度下模型性能急剧下降。因此,需要一种能够自适应地确定每一层重要性并进行非均匀剪枝的方法。

核心思路:DLP的核心思路是根据每一层对模型输出的影响程度动态地调整剪枝率。重要性高的层应该保留更多的参数,而重要性低的层可以进行更激进的剪枝。这种动态调整能够更好地平衡模型大小和性能之间的关系,从而在高稀疏度下保持模型的有效性。

技术框架:DLP方法主要包含两个阶段:重要性评估和剪枝。在重要性评估阶段,DLP通过整合模型权重和输入激活信息来计算每一层的重要性得分。在剪枝阶段,DLP根据每一层的重要性得分动态地分配剪枝率,并对模型进行剪枝。整个过程可以迭代进行,以进一步提高模型的稀疏度和性能。

关键创新:DLP的关键创新在于提出了一种动态的层级剪枝方法,能够自适应地确定每一层的重要性并进行非均匀剪枝。与现有方法相比,DLP不需要预先定义每一层的剪枝率,而是根据模型自身的状态动态地进行调整。这种自适应性使得DLP能够更好地适应不同的模型和任务,从而获得更好的性能。

关键设计:DLP的关键设计包括:1) 使用模型权重和输入激活信息来计算每一层的重要性得分。具体来说,可以使用权重矩阵的范数或者激活值的统计量来衡量每一层的重要性。2) 设计一种动态的剪枝率分配策略,根据每一层的重要性得分来确定剪枝率。可以使用线性或者非线性的函数来将重要性得分映射到剪枝率。3) 迭代地进行重要性评估和剪枝,以进一步提高模型的稀疏度和性能。在每次迭代中,可以重新计算每一层的重要性得分,并根据新的得分重新分配剪枝率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DLP在多个LLM上表现出色。在70%的稀疏度下,DLP相较于现有最佳方法,将LLaMA2-7B的困惑度降低了7.79,平均准确率提高了2.7%。这些结果证明了DLP在保持模型性能的同时,有效降低模型大小的能力。此外,DLP还与现有的LLM压缩技术兼容,并且可以无缝集成到参数高效微调(PEFT)中。

🎯 应用场景

DLP技术可广泛应用于各种需要部署大语言模型的场景,尤其是在资源受限的边缘设备或移动设备上。通过降低模型大小和提高推理速度,DLP能够使这些设备也能运行复杂的LLM应用,例如智能助手、机器翻译、文本摘要等。此外,DLP还可以与其他模型压缩技术结合使用,进一步提高压缩效率,推动LLM在更广泛领域的应用。

📄 摘要(原文)

Pruning has recently been widely adopted to reduce the parameter scale and improve the inference efficiency of Large Language Models (LLMs). Mainstream pruning techniques often rely on uniform layerwise pruning strategies, which can lead to severe performance degradation at high sparsity levels. Recognizing the varying contributions of different layers in LLMs, recent studies have shifted their focus toward non-uniform layerwise pruning. However, these approaches often rely on pre-defined values, which can result in suboptimal performance. To overcome these limitations, we propose a novel method called Dynamic Layerwise Pruning (DLP). This approach adaptively determines the relative importance of each layer by integrating model weights with input activation information, assigning pruning rates accordingly. Experimental results show that DLP effectively preserves model performance at high sparsity levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7% compared to state-of-the-art methods. Moreover, DLP is compatible with various existing LLM compression techniques and can be seamlessly integrated into Parameter-Efficient Fine-Tuning (PEFT). We release the code at https://github.com/ironartisan/DLP to facilitate future research.