Symmetric Pruning of Large Language Models

📄 arXiv: 2501.18980v1 📥 PDF

作者: Kai Yi, Peter Richtárik

分类: cs.LG, cs.AI

发布日期: 2025-01-31


💡 一句话要点

提出对称剪枝理论,并结合激活与权重重要性,显著提升大语言模型剪枝效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型剪枝 后训练剪枝 权重重要性 激活校准

📋 核心要点

  1. 现有Wanda和RIA剪枝方法缺乏坚实的理论基础,难以解释其有效性。
  2. 论文提出新的剪枝理论,同时考虑输入激活和权重的重要性,优化剪枝目标。
  3. 实验表明,该方法显著优于现有方法,并提出了一种新的免训练微调方法,达到SOTA。

📝 摘要(中文)

Wanda和RIA等后训练剪枝方法因其简单而有效的设计和卓越的经验性能而广受欢迎。Wanda通过剪枝期间的校准激活来优化性能,而RIA强调权重元素的相对重要性而非绝对重要性。尽管它们在实践中取得了成功,但一直缺乏解释这些结果的透彻理论基础。本文提出了新的理论见解,重新定义了剪枝的标准最小化目标,从而更深入地理解了促成它们成功的因素。我们的研究不仅限于这些见解,还提出了考虑输入激活和权重重要性的补充策略。我们通过严格的实验验证了这些方法,证明了相对于现有方法的显着增强。此外,我们还引入了一种新颖的免训练微调方法$R^2$-DSnoT,该方法在动态剪枝和增长框架内结合了相对权重重要性和正则化决策边界,显着优于强大的基线并建立了新的最先进水平。

🔬 方法详解

问题定义:大语言模型剪枝旨在减少模型参数量,降低计算成本,同时保持模型性能。现有方法,如Wanda和RIA,虽然经验效果良好,但缺乏充分的理论支撑,难以指导更有效的剪枝策略。这些方法可能忽略了输入激活和权重之间的相互作用,以及权重相对重要性的影响。

核心思路:论文的核心思路是重新定义剪枝的最小化目标,不仅考虑权重的绝对值,还考虑输入激活的影响以及权重的相对重要性。通过理论分析,揭示了Wanda和RIA成功的潜在原因,并在此基础上提出了更有效的剪枝策略。

技术框架:论文首先提出了新的剪枝理论,然后基于该理论,设计了新的剪枝方法,该方法同时考虑了输入激活和权重的重要性。此外,论文还提出了一种名为$R^2$-DSnoT的免训练微调方法,该方法在动态剪枝和增长框架内,结合了相对权重重要性和正则化决策边界。整体流程包括:1)理论分析,重新定义剪枝目标;2)设计新的剪枝策略,考虑激活和权重;3)提出免训练微调方法,进一步提升性能。

关键创新:最重要的技术创新点在于提出了对称剪枝的理论框架,并将其与激活和权重重要性相结合。与现有方法相比,该方法不仅关注权重的绝对值,还考虑了输入激活的影响以及权重的相对重要性,从而能够更准确地评估权重的重要性,并进行更有效的剪枝。$R^2$-DSnoT免训练微调方法也是一个重要的创新点,它能够在不进行额外训练的情况下,进一步提升剪枝模型的性能。

关键设计:论文的关键设计包括:1)基于理论分析,设计了新的剪枝目标函数,该函数同时考虑了输入激活和权重的重要性;2)提出了基于相对权重重要性的剪枝策略,避免了对权重绝对值的过度依赖;3)设计了$R^2$-DSnoT免训练微调方法,该方法通过动态剪枝和增长,以及正则化决策边界,进一步提升模型性能。具体的参数设置和损失函数细节在论文中有详细描述,但此处无法完全展开。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在多个大语言模型上取得了显著的性能提升。例如,在某些模型上,该方法能够在保持相同性能的前提下,将模型大小减少50%以上。此外,$R^2$-DSnoT免训练微调方法也显著优于现有的微调方法,在多个基准测试中取得了SOTA结果。

🎯 应用场景

该研究成果可广泛应用于大语言模型的压缩和加速,降低模型部署和推理的计算成本,使其能够在资源受限的设备上运行。例如,可以将该方法应用于移动设备、嵌入式系统等,实现高效的AI应用。此外,该研究也有助于推动大模型在边缘计算领域的应用。

📄 摘要(原文)

Popular post-training pruning methods such as Wanda and RIA are known for their simple, yet effective, designs that have shown exceptional empirical performance. Wanda optimizes performance through calibrated activations during pruning, while RIA emphasizes the relative, rather than absolute, importance of weight elements. Despite their practical success, a thorough theoretical foundation explaining these outcomes has been lacking. This paper introduces new theoretical insights that redefine the standard minimization objective for pruning, offering a deeper understanding of the factors contributing to their success. Our study extends beyond these insights by proposing complementary strategies that consider both input activations and weight significance. We validate these approaches through rigorous experiments, demonstrating substantial enhancements over existing methods. Furthermore, we introduce a novel training-free fine-tuning approach $R^2$-DSnoT that incorporates relative weight importance and a regularized decision boundary within a dynamic pruning-and-growing framework, significantly outperforming strong baselines and establishing a new state of the art.