Sparsity Induction for Accurate Post-Training Pruning of Large Language Models

📄 arXiv: 2602.21652v1 📥 PDF

作者: Minhao Jiang, Zhikai Li, Xuewen Liu, Jing Zhang, Mengjuan Chen, Qingyi Gu

分类: cs.CL, cs.AI

发布日期: 2026-02-25

备注: 5 pages, 1 figure, 4 tables


💡 一句话要点

提出稀疏性诱导方法,提升大语言模型后训练剪枝的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练剪枝 模型压缩 稀疏性诱导 谱范数 模型优化 低秩表示

📋 核心要点

  1. 现有后训练剪枝方法直接移除权重,易扰乱模型状态,导致性能下降且难以恢复。
  2. 提出稀疏性诱导,在剪枝前从分布和特征层面提升模型的稀疏性,增强剪枝友好性。
  3. 实验表明,该方法在多种模型和任务上优于现有方法,提升了剪枝后的模型性能。

📝 摘要(中文)

大型语言模型在文本生成方面表现出强大的能力,但其不断增长的参数规模给计算和内存效率带来了挑战。后训练稀疏化(PTS)是一种有效的降低模型成本的方法,它通过从稠密网络中移除权重来实现。然而,原生的稠密矩阵缺乏高稀疏性,使得直接移除权重的现有方法会扰乱模型状态,即使经过后微调也难以恢复性能。我们提出了稀疏性诱导,在剪枝之前,从分布和特征层面促进模型向更高的稀疏性发展,以突破PTS的极限。在分布层面,我们通过数学上等价的缩放变换来增强分布稀疏性,这些变换可以完全吸收,不会产生额外的参数或推理时开销。在特征层面,我们引入谱范数损失,从低秩的角度促进特征稀疏性。在不同的模型架构和任务上的实验表明,我们的方法进一步增强了稀疏友好性,与现有方法相比,实现了卓越的剪枝性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)后训练剪枝(Post-Training Pruning, PTS)中,由于原始稠密模型缺乏足够的稀疏性,直接剪枝导致模型性能显著下降的问题。现有方法难以在保持模型性能的同时实现高稀疏度。

核心思路:论文的核心思路是在剪枝之前,通过“稀疏性诱导”来增强模型对稀疏化的适应性。具体来说,从两个层面入手:一是分布层面,通过等价变换增强权重分布的稀疏性;二是特征层面,通过谱范数损失促进特征的稀疏性,从而使模型更容易被剪枝,且剪枝后性能损失更小。

技术框架:该方法主要包含两个阶段:1) 分布层面稀疏性诱导:通过可吸收的缩放变换,调整权重分布,使其更稀疏,且不引入额外参数和推理开销。2) 特征层面稀疏性诱导:引入谱范数损失,约束特征的低秩性,从而促进特征的稀疏性。这两个阶段在剪枝之前进行,共同提升模型的稀疏友好性。然后进行标准的剪枝和微调流程。

关键创新:该方法的核心创新在于提出了“稀疏性诱导”这一概念,即在剪枝之前主动地使模型变得更“稀疏友好”,而不是直接对原始稠密模型进行剪枝。这种预处理的思想与直接剪枝方法有本质区别,能够更有效地保留模型的重要信息,从而在剪枝后获得更好的性能。

关键设计:1) 分布层面:使用数学上等价的缩放变换,具体实现细节未知,但强调了其可吸收性,避免引入额外参数。2) 特征层面:引入谱范数损失,鼓励特征的低秩性,从而促进特征稀疏。谱范数损失的具体形式和权重系数等参数设置未知。3) 剪枝策略和微调策略未知,但强调了该方法可以与现有的剪枝和微调方法结合使用。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在多种模型架构和任务上都取得了优于现有剪枝方法的效果。具体的性能提升数据未知,但论文强调该方法能够显著提高剪枝后的模型性能,并实现更高的稀疏度。

🎯 应用场景

该研究成果可应用于各种需要部署在资源受限设备上的大型语言模型,例如移动设备、嵌入式系统等。通过降低模型的大小和计算复杂度,可以显著提高模型的部署效率和降低能耗,从而扩展LLM的应用范围,并促进AI在边缘计算领域的应用。

📄 摘要(原文)

Large language models have demonstrated capabilities in text generation, while their increasing parameter scales present challenges in computational and memory efficiency. Post-training sparsity (PTS), which reduces model cost by removing weights from dense networks, is an effective approach. However, native dense matrices lack high sparsity, making existing approaches that directly remove weights disrupt model states, resulting in unsatisfactory performance recovery even with post-tuning. We propose Sparsity Induction, which promotes models toward higher sparsity at both distribution and feature levels before pruning, to push the limits of PTS. At the distribution level, we enhance distributional sparsity through mathematically equivalent scaling transformations, which are fully absorbable and incur no extra parameters or inference-time overhead. At the feature level, we introduce Spectral Norm Loss to promote feature sparsity from a low-rank perspective. Experiments across diverse model architectures and tasks demonstrate that our method further enhances sparsity-friendliness, achieving superior pruning performance over existing approaches.