Prune, Update and Trim: Robust Structured Pruning for Large Language Models
作者: Diego Coello de Portugal Mecke, Tom Hanika, Lars Schmidth-Thieme
分类: cs.LG
发布日期: 2026-05-18
🔗 代码/项目: GITHUB
💡 一句话要点
提出Putri:一种鲁棒的大语言模型结构化剪枝方法,提升极端稀疏度下的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练剪枝 结构化剪枝 模型压缩 注意力头剪枝
📋 核心要点
- 现有后训练剪枝方法在极端稀疏度下性能下降明显,无法满足资源受限场景的需求。
- Putri通过更新未剪枝权重、顺序剪枝FFN层和剪枝单个注意力头来提升剪枝性能。
- 实验表明,Putri在多种模型和数据集上表现出SOTA性能,尤其擅长极端稀疏度下的剪枝。
📝 摘要(中文)
近年来,大型语言模型(LLMs)经历了显著的增长和发展。然而,对LLMs执行推理仍然成本高昂,尤其是在长上下文推理或资源受限的设备中。这促使了新的后训练剪枝(PTP)方法的发展。这些方法通过移除模型的大部分参数来降低LLMs的需求。被丢弃的权重是根据它们对模型性能的影响来选择的。目前的PTP方法通过移除FFN层中信息量较少的隐藏节点和最不重要的注意力层来剪枝模型。我们提出Putri,一种PTP方法,它对最先进的方法进行了三项改进。首先,我们更新FFN的未剪枝权重,以补偿引入的剪枝误差。其次,FFN层是按顺序剪枝的,考虑到对前一层所做的更新。第三,我们移除单个注意力头,而不是移除完整的注意力层。我们扩展了这种方法,使其也能处理分组查询注意力。总而言之,Putri是一种结构化剪枝方法,它在保持简单的同时表现出SOTA性能。在具有各种稀疏度范围和不同数据集的多个模型上进行的剪枝实验验证了Putri的通用性。值得注意的是,我们证明,与以前的方法不同,Putri可以在极端的稀疏度下剪枝LLMs。代码可在https://github.com/Coello-dev/Putri获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)推理成本高昂的问题,尤其是在长上下文和资源受限的场景下。现有的后训练剪枝(PTP)方法在极端稀疏度下性能显著下降,无法有效降低模型大小和计算复杂度,同时保持模型性能。
核心思路:Putri的核心思路是通过更精细的结构化剪枝和权重更新策略,在保证模型性能的前提下,尽可能地减少模型参数量。它通过补偿剪枝误差、顺序剪枝和更细粒度的注意力头剪枝来实现这一目标。
技术框架:Putri是一种后训练剪枝方法,主要包含以下几个阶段:1) 权重重要性评估:评估模型中各个结构(FFN节点、注意力头)的重要性。2) 结构化剪枝:根据重要性评估结果,移除FFN层中信息量较少的隐藏节点和最不重要的注意力头。3) 权重更新:更新未剪枝的权重,以补偿由于剪枝引入的误差。4) 顺序剪枝:FFN层按顺序剪枝,并考虑之前层的更新。
关键创新:Putri的关键创新在于以下三点:1) 权重更新:通过更新未剪枝的权重来补偿剪枝误差,从而更好地保持模型性能。2) 顺序剪枝:FFN层按顺序剪枝,考虑了层之间的依赖关系,避免了全局最优解的缺失。3) 细粒度注意力头剪枝:相比于移除整个注意力层,Putri移除单个注意力头,实现了更精细的剪枝。
关键设计:Putri的关键设计包括:1) FFN权重更新策略:具体更新策略未知,但目标是最小化剪枝带来的性能损失。2) 顺序剪枝的顺序确定:具体顺序确定方法未知,但可能基于层的重要性或依赖关系。3) 注意力头重要性评估指标:用于确定哪些注意力头应该被剪枝。4) 稀疏度控制:通过调整剪枝比例来控制模型的稀疏度。
🖼️ 关键图片
📊 实验亮点
Putri在多个模型和数据集上进行了实验,结果表明其性能优于现有的PTP方法。尤其是在极端稀疏度下,Putri能够显著提升模型性能,而其他方法则表现出明显的性能下降。论文声称Putri达到了SOTA性能,但未提供具体的性能数据和对比基线。
🎯 应用场景
Putri可应用于各种资源受限的场景,例如移动设备、边缘计算和嵌入式系统。通过降低LLMs的计算和存储需求,Putri使得在这些平台上部署和运行LLMs成为可能。此外,Putri还可以用于加速LLMs的推理速度,提高用户体验,并降低云计算成本。该方法在智能助手、自然语言处理、机器翻译等领域具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have experienced significant growth and development in recent years. However, performing inference on LLMs remains costly, especially for long-context inference or in resource-constrained devices. This motivates the development of new post-training pruning (PTP) methods. These methods reduce LLMs' requirements by removing a substantial part of the model's parameters. The discarded weights are selected depending on their impact on the models performance. Current PTP methods prune the models by removing the less informative hidden nodes from the FFN layers, and the least important attention layers. We propose Putri, a PTP method that introduces three changes to the State- of-the-art. First, we update the un-pruned weights of the FFN to compensate for the introduced pruning error. Second, the FFN layers are pruned sequentially, taking into account the updates done to the previous layers. Third, instead of removing full attention layers, we remove individual attention-heads. We extend this method such that it can also address Grouped-Query Attention. In summary, Putri is a structure pruning method which remains simple while showing SOTA performance. Pruning experiments on multiple models with a wide variety of sparsity ranges and on different datasets, validate the generality of Putri. Notably, we demonstrate that, unlike previous methods, Putri can prune LLMs on extreme sparsity ratios. The code is available at: https://github.com/Coello-dev/Putri.