How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark

作者: Eldar Kurtic, Torsten Hoefler, Dan Alistarh

分类: cs.CL

发布日期: 2023-12-21

备注: Accepted as oral to CPAL 2024

💡 一句话要点

针对BERT模型，提出剪枝调优策略，显著提升Sparsity May Cry基准上的精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: BERT剪枝 模型压缩 Sparsity May Cry 知识蒸馏 渐进幅度剪枝

📋 核心要点

现有BERT剪枝方法在Sparsity May Cry基准上表现不佳，暴露了复杂场景下的剪枝挑战。
通过成本效益分析、训练策略缩放和知识蒸馏优化，提升剪枝后的模型精度。
实验表明，即使是经典GMP方法，通过适当调整也能在SMC基准上取得领先结果。

📝 摘要（中文）

对BERT系列大型语言模型进行剪枝已成为一种标准的压缩基准，并为此提出了多种剪枝方法。最近的“Sparsity May Cry”（SMC）基准测试对所有现有方法的有效性提出了质疑，它展示了一种更复杂的设置，许多已知的剪枝方法似乎都失效了。我们重新审视了在下游数据集上微调期间进行精确BERT剪枝的问题，并提出了一套通用的成功剪枝指南，即使在具有挑战性的SMC基准测试中也能适用。首先，我们对剪枝模型组件（如嵌入和分类头）进行了成本效益分析；其次，我们提供了一种简单而通用的方法来缩放训练、稀疏化和学习率计划，使其与所需的目标稀疏度相关；最后，我们研究了在LLM上下文中知识蒸馏的适当参数化的重要性。我们简单的见解带来了最先进的结果，无论是在经典的BERT剪枝基准测试中，还是在SMC基准测试中，都表明即使是经典的渐进幅度剪枝（GMP）也可以通过正确的方法产生有竞争力的结果。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）BERT在剪枝后精度大幅下降的问题，尤其是在具有挑战性的“Sparsity May Cry”（SMC）基准测试中。现有方法在SMC基准上失效，表明它们无法很好地适应复杂的剪枝场景，例如高稀疏度和特定数据集。

核心思路：论文的核心思路是通过一套通用的剪枝调优策略，包括对模型组件进行成本效益分析，自适应地调整训练和稀疏化策略，以及优化知识蒸馏过程，从而恢复剪枝后的模型精度。这种方法强调了剪枝过程中的精细化控制和参数调整的重要性。

技术框架：该方法没有引入全新的架构，而是专注于优化现有的剪枝流程。主要包含三个阶段：1) 组件分析：评估剪枝不同模型组件（如嵌入层、分类头）的成本和收益，确定哪些组件应该被优先保留。2) 策略缩放：根据目标稀疏度，自适应地调整训练、稀疏化和学习率计划，确保模型在剪枝过程中能够有效地学习。3) 知识蒸馏优化：针对LLM，研究知识蒸馏的参数设置，以提高剪枝后模型的性能。

关键创新：论文的关键创新在于提出了一套通用的剪枝调优指南，而不是依赖于特定的剪枝算法。这种方法强调了对现有剪枝方法的精细化调整和优化，使其能够适应更复杂的剪枝场景。与现有方法相比，该方法更加注重剪枝过程中的策略选择和参数调整，而不是仅仅依赖于剪枝算法本身。

关键设计：关键设计包括：1) 成本效益分析：通过实验评估剪枝不同模型组件对性能的影响，确定哪些组件对模型性能至关重要。2) 自适应策略缩放：根据目标稀疏度，调整训练轮数、学习率和稀疏化强度，以优化剪枝过程。3) 知识蒸馏参数优化：调整知识蒸馏的温度系数和损失函数权重，以提高剪枝后模型的性能。论文特别强调了在LLM上下文中，知识蒸馏的参数设置对剪枝效果的影响。

📊 实验亮点

该研究在Sparsity May Cry基准测试上取得了最先进的结果，证明了即使是经典的渐进幅度剪枝（GMP）方法，通过适当的调优也能达到具有竞争力的性能。具体性能数据未在摘要中给出，但强调了该方法在具有挑战性的基准测试上的有效性。

🎯 应用场景

该研究成果可应用于各种需要压缩BERT系列大型语言模型的场景，例如移动设备上的自然语言处理、资源受限环境下的模型部署等。通过提高剪枝后模型的精度，可以降低模型大小和计算复杂度，从而实现更高效的模型部署和推理。

📄 摘要（原文）

Pruning large language models (LLMs) from the BERT family has emerged as a standard compression benchmark, and several pruning methods have been proposed for this task. The recent ``Sparsity May Cry'' (SMC) benchmark put into question the validity of all existing methods, exhibiting a more complex setup where many known pruning methods appear to fail. We revisit the question of accurate BERT-pruning during fine-tuning on downstream datasets, and propose a set of general guidelines for successful pruning, even on the challenging SMC benchmark. First, we perform a cost-vs-benefits analysis of pruning model components, such as the embeddings and the classification head; second, we provide a simple-yet-general way of scaling training, sparsification and learning rate schedules relative to the desired target sparsity; finally, we investigate the importance of proper parametrization for Knowledge Distillation in the context of LLMs. Our simple insights lead to state-of-the-art results, both on classic BERT-pruning benchmarks, as well as on the SMC benchmark, showing that even classic gradual magnitude pruning (GMP) can yield competitive results, with the right approach.

How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册