Improved Methods for Model Pruning and Knowledge Distillation

📄 arXiv: 2505.14052v1 📥 PDF

作者: Wei Jiang, Anying Fu, Youling Zhang

分类: cs.CL, cs.CE

发布日期: 2025-05-20


💡 一句话要点

提出MAMA Pruning,一种改进的模型剪枝与知识蒸馏方法,提升大语言模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型剪枝 知识蒸馏 大语言模型 性能优化 GRPO奖励

📋 核心要点

  1. 现有剪枝方法在压缩大模型时,常伴随显著的性能下降,或需耗时费力的再训练与微调。
  2. MAMA Pruning通过分析权重变动幅度与GRPO奖励,作为剪枝指标,旨在高效移除冗余参数。
  3. 实验表明,即使在高剪枝率下,MAMA Pruning仍能保持与原模型相当的性能,并在多项任务中超越现有方法。

📝 摘要(中文)

模型剪枝是一种针对大型语言模型(如R1或o3-mini)的性能优化技术。然而,现有的剪枝方法通常会导致显著的性能下降,或者需要大量的再训练和微调。本研究旨在识别并移除在人机交互阶段不太可能做出贡献的神经元和连接。我们的目标是获得一个更小、更快的知识蒸馏模型,该模型能够快速生成几乎与未剪枝模型一样好的内容。我们提出了一种改进的剪枝方法,名为MAMA Pruning(Movement and Magnitude Analysis的缩写),该方法有效地降低了模型大小和计算复杂度,同时保持了与原始未剪枝模型相当的性能,即使在极端的剪枝水平下也是如此。该改进方法基于预训练阶段固定的权重和偏差,以及后训练阶段验证的GRPO奖励作为我们新颖的剪枝指标。初步实验结果表明,我们的方法在各种剪枝水平和不同的下游计算语言学任务中,优于或可与最先进的方法相媲美。

🔬 方法详解

问题定义:论文旨在解决大型语言模型剪枝过程中,现有方法导致的性能显著下降或需要大量再训练的问题。现有剪枝方法难以在模型大小和性能之间取得平衡,尤其是在高剪枝率下,模型性能损失严重。

核心思路:论文的核心思路是利用预训练阶段的权重和偏差信息,以及后训练阶段的GRPO奖励作为剪枝指标,从而更准确地识别和移除对模型性能贡献较小的神经元和连接。这种方法旨在减少对模型性能的负面影响,并降低再训练的需求。

技术框架:MAMA Pruning方法主要包含以下几个阶段:1) 预训练模型分析:分析预训练模型的权重和偏差,提取相关信息。2) 后训练奖励评估:利用GRPO奖励评估模型在下游任务中的表现。3) 剪枝指标计算:结合权重、偏差和GRPO奖励,计算每个神经元或连接的剪枝指标。4) 模型剪枝:根据剪枝指标,移除贡献较小的神经元和连接。5) 模型微调(可选):根据需要对剪枝后的模型进行微调,以进一步提升性能。

关键创新:该方法最重要的技术创新点在于提出了结合权重变动幅度(Movement)和幅度分析(Magnitude Analysis)的MAMA Pruning策略,并引入了GRPO奖励作为剪枝指标。与传统的基于权重大小的剪枝方法相比,MAMA Pruning能够更准确地评估神经元或连接的重要性,从而在保持模型性能的同时实现更高的剪枝率。

关键设计:论文的关键设计包括:1) 剪枝指标的计算方式,如何有效地结合权重、偏差和GRPO奖励。2) GRPO奖励的具体计算方法和应用场景。3) 剪枝策略的选择,例如,是采用全局剪枝还是局部剪枝,以及如何确定剪枝率。4) 如果需要进行微调,如何选择合适的微调策略和参数。

📊 实验亮点

初步实验结果表明,MAMA Pruning方法在各种剪枝水平和不同的下游计算语言学任务中,优于或可与最先进的剪枝方法相媲美。这意味着该方法能够在保持模型性能的同时,有效地降低模型大小和计算复杂度,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于各种需要部署在资源受限设备上的大型语言模型,例如移动设备、嵌入式系统等。通过模型剪枝,可以显著降低模型的计算复杂度和存储需求,从而提高模型的推理速度和能效。此外,该方法还可以用于知识蒸馏,将大型模型的知识迁移到小型模型中,从而获得更高效的模型。

📄 摘要(原文)

Model pruning is a performance optimization technique for large language models like R1 or o3-mini. However, existing pruning methods often lead to significant performance degradation or require extensive retraining and fine-tuning. This technique aims to identify and remove neurons, connections unlikely leading to the contribution during the human-computer interaction phase. Our goal is to obtain a much smaller and faster knowledge distilled model that can quickly generate content almost as good as those of the unpruned ones. We propose MAMA Pruning, short for Movement and Magnitude Analysis, an improved pruning method that effectively reduces model size and computational complexity while maintaining performance comparable to the original unpruned model even at extreme pruned levels. The improved method is based on weights, bias fixed in the pre-training phase and GRPO rewards verified during the post-training phase as our novel pruning indicators. Preliminary experimental results show that our method outperforms and be comparable to state-of-the-art methods across various pruning levels and different downstream computational linguistics tasks.