SlimLLM: Accurate Structured Pruning for Large Language Models

📄 arXiv: 2505.22689v1 📥 PDF

作者: Jialong Guo, Xinghao Chen, Yehui Tang, Yunhe Wang

分类: cs.LG

发布日期: 2025-05-28

备注: ICML 2025


💡 一句话要点

SlimLLM:面向大语言模型的精确结构化剪枝方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 结构化剪枝 模型压缩 重要性评估 线性回归

📋 核心要点

  1. 大语言模型部署受限于其巨大的计算开销,结构化剪枝是有效的压缩方法。
  2. SlimLLM通过整体评估通道/注意力头的重要性,并结合线性回归恢复性能。
  3. 实验表明,SlimLLM在LLaMA基准测试中优于其他方法,达到SOTA性能。

📝 摘要(中文)

大语言模型(LLMs)在各种应用中展现了卓越的能力,并引起了广泛关注。然而,由于其巨大的计算成本,LLMs的部署和应用常常受到严重限制。为了解决这个问题,结构化剪枝是一种有效的压缩LLMs参数的方法。确定LLMs中每个子模块的重要性并最小化性能损失是结构化剪枝中需要认真解决的关键问题。本文提出了一种有效且快速的针对大语言模型的结构化剪枝方法,名为SlimLLM。对于通道和注意力头剪枝,我们基于整个通道或头来评估重要性,而不是仅仅聚合子模块中各个元素的重要性。这种方法能够更全面地考虑子模块中元素之间的相互依赖性。此外,我们为输出矩阵设计了一个简单的线性回归策略来快速恢复性能。我们还提出了基于层的重要性比率来确定每一层的剪枝比率。基于LLaMA基准测试结果,我们的SlimLLM优于其他方法,并实现了最先进的性能。

🔬 方法详解

问题定义:大语言模型参数量巨大,部署和应用受限,需要有效的模型压缩方法。现有结构化剪枝方法在评估子模块重要性时,通常只关注模块内单个元素的重要性聚合,忽略了元素间的相互依赖性,导致剪枝后性能下降。

核心思路:SlimLLM的核心思路是更全面地评估子模块(通道或注意力头)的重要性,考虑子模块内部元素间的相互依赖性,并设计快速的性能恢复策略。通过整体评估子模块的重要性,避免了因孤立地评估单个元素而造成的偏差。

技术框架:SlimLLM的整体框架包含三个主要阶段:1) 重要性评估:基于整个通道或注意力头评估其重要性,而非聚合单个元素的重要性。2) 剪枝:根据基于层的剪枝比例,移除不重要的通道或注意力头。3) 性能恢复:使用线性回归策略快速恢复剪枝后的模型性能。

关键创新:SlimLLM的关键创新在于:1) 整体子模块重要性评估:避免了孤立评估单个元素的重要性,更准确地反映了子模块的真实重要性。2) 线性回归性能恢复:设计了一种简单有效的线性回归策略,能够快速恢复剪枝后的模型性能。3) 基于层的剪枝比例:根据每一层的重要性自适应地确定剪枝比例。

关键设计:在重要性评估方面,论文采用了一种基于梯度的指标来衡量通道或注意力头的重要性。线性回归性能恢复策略通过最小化剪枝前后输出矩阵的差异来学习回归系数。基于层的剪枝比例通过分析每一层的重要性分布来确定,重要性较低的层可以设置更高的剪枝比例。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SlimLLM在LLaMA基准测试中取得了显著的性能提升,优于其他结构化剪枝方法,达到了state-of-the-art的水平。具体性能数据和对比基线在论文中详细给出,证明了SlimLLM在压缩大语言模型方面的有效性。

🎯 应用场景

SlimLLM具有广泛的应用前景,可用于降低大语言模型的计算成本,使其更容易部署在资源受限的设备上,例如移动设备、边缘设备等。这有助于推动大语言模型在自然语言处理、机器翻译、文本生成等领域的应用,并促进人工智能技术的普及。

📄 摘要(原文)

Large language models(LLMs) have garnered significant attention and demonstrated impressive capabilities in a wide range of applications. However, due to their enormous computational costs, the deployment and application of LLMs are often severely limited. To address this issue, structured pruning is an effective solution to compress the parameters of LLMs. Determining the importance of each sub-module in LLMs and minimizing performance loss are critical issues that need to be carefully addressed in structured pruning. In this paper, we propose an effective and fast structured pruning method named SlimLLM for large language models. For channel and attention head pruning, we evaluate the importance based on the entire channel or head, rather than merely aggregating the importance of individual elements within a sub-module. This approach enables a more holistic consideration of the interdependence among elements within the sub-module. In addition, we design a simple linear regression strategy for the output matrix to quickly recover performance. We also propose layer-based importance ratio to determine the pruning ratio for each layer. Based on the LLaMA benchmark results, our SlimLLM outperforms other methods and achieves state-of-the-art performance.