How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark
作者: Eldar Kurtic, Torsten Hoefler, Dan Alistarh
分类: cs.CL
发布日期: 2023-12-21
备注: Accepted as oral to CPAL 2024
💡 一句话要点
针对BERT模型,提出剪枝调优策略,显著提升Sparsity May Cry基准上的精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: BERT剪枝 模型压缩 Sparsity May Cry 知识蒸馏 渐进幅度剪枝
📋 核心要点
- 现有BERT剪枝方法在Sparsity May Cry基准上表现不佳,暴露了复杂场景下的剪枝挑战。
- 通过成本效益分析、训练策略缩放和知识蒸馏优化,提升剪枝后的模型精度。
- 实验表明,即使是经典GMP方法,通过适当调整也能在SMC基准上取得领先结果。
📝 摘要(中文)
对BERT系列大型语言模型进行剪枝已成为一种标准的压缩基准,并为此提出了多种剪枝方法。最近的“Sparsity May Cry”(SMC)基准测试对所有现有方法的有效性提出了质疑,它展示了一种更复杂的设置,许多已知的剪枝方法似乎都失效了。我们重新审视了在下游数据集上微调期间进行精确BERT剪枝的问题,并提出了一套通用的成功剪枝指南,即使在具有挑战性的SMC基准测试中也能适用。首先,我们对剪枝模型组件(如嵌入和分类头)进行了成本效益分析;其次,我们提供了一种简单而通用的方法来缩放训练、稀疏化和学习率计划,使其与所需的目标稀疏度相关;最后,我们研究了在LLM上下文中知识蒸馏的适当参数化的重要性。我们简单的见解带来了最先进的结果,无论是在经典的BERT剪枝基准测试中,还是在SMC基准测试中,都表明即使是经典的渐进幅度剪枝(GMP)也可以通过正确的方法产生有竞争力的结果。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)BERT在剪枝后精度大幅下降的问题,尤其是在具有挑战性的“Sparsity May Cry”(SMC)基准测试中。现有方法在SMC基准上失效,表明它们无法很好地适应复杂的剪枝场景,例如高稀疏度和特定数据集。
核心思路:论文的核心思路是通过一套通用的剪枝调优策略,包括对模型组件进行成本效益分析,自适应地调整训练和稀疏化策略,以及优化知识蒸馏过程,从而恢复剪枝后的模型精度。这种方法强调了剪枝过程中的精细化控制和参数调整的重要性。
技术框架:该方法没有引入全新的架构,而是专注于优化现有的剪枝流程。主要包含三个阶段:1) 组件分析:评估剪枝不同模型组件(如嵌入层、分类头)的成本和收益,确定哪些组件应该被优先保留。2) 策略缩放:根据目标稀疏度,自适应地调整训练、稀疏化和学习率计划,确保模型在剪枝过程中能够有效地学习。3) 知识蒸馏优化:针对LLM,研究知识蒸馏的参数设置,以提高剪枝后模型的性能。
关键创新:论文的关键创新在于提出了一套通用的剪枝调优指南,而不是依赖于特定的剪枝算法。这种方法强调了对现有剪枝方法的精细化调整和优化,使其能够适应更复杂的剪枝场景。与现有方法相比,该方法更加注重剪枝过程中的策略选择和参数调整,而不是仅仅依赖于剪枝算法本身。
关键设计:关键设计包括:1) 成本效益分析:通过实验评估剪枝不同模型组件对性能的影响,确定哪些组件对模型性能至关重要。2) 自适应策略缩放:根据目标稀疏度,调整训练轮数、学习率和稀疏化强度,以优化剪枝过程。3) 知识蒸馏参数优化:调整知识蒸馏的温度系数和损失函数权重,以提高剪枝后模型的性能。论文特别强调了在LLM上下文中,知识蒸馏的参数设置对剪枝效果的影响。
📊 实验亮点
该研究在Sparsity May Cry基准测试上取得了最先进的结果,证明了即使是经典的渐进幅度剪枝(GMP)方法,通过适当的调优也能达到具有竞争力的性能。具体性能数据未在摘要中给出,但强调了该方法在具有挑战性的基准测试上的有效性。
🎯 应用场景
该研究成果可应用于各种需要压缩BERT系列大型语言模型的场景,例如移动设备上的自然语言处理、资源受限环境下的模型部署等。通过提高剪枝后模型的精度,可以降低模型大小和计算复杂度,从而实现更高效的模型部署和推理。
📄 摘要(原文)
Pruning large language models (LLMs) from the BERT family has emerged as a standard compression benchmark, and several pruning methods have been proposed for this task. The recent ``Sparsity May Cry'' (SMC) benchmark put into question the validity of all existing methods, exhibiting a more complex setup where many known pruning methods appear to fail. We revisit the question of accurate BERT-pruning during fine-tuning on downstream datasets, and propose a set of general guidelines for successful pruning, even on the challenging SMC benchmark. First, we perform a cost-vs-benefits analysis of pruning model components, such as the embeddings and the classification head; second, we provide a simple-yet-general way of scaling training, sparsification and learning rate schedules relative to the desired target sparsity; finally, we investigate the importance of proper parametrization for Knowledge Distillation in the context of LLMs. Our simple insights lead to state-of-the-art results, both on classic BERT-pruning benchmarks, as well as on the SMC benchmark, showing that even classic gradual magnitude pruning (GMP) can yield competitive results, with the right approach.