P$^2$ Law: Scaling Law for Post-Training After Model Pruning
作者: Xiaodong Chen, Yuxuan Hu, Xiaokang Zhang, Yanling Wang, Cuiping Li, Hong Chen, Jing Zhang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2024-11-15 (更新: 2025-05-26)
备注: Accepted as Main of ACL2025
💡 一句话要点
提出P$^2$ Law,用于预测剪枝后模型后训练的损失,优化后训练数据量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型剪枝 后训练 缩放定律 大型语言模型 性能预测
📋 核心要点
- 大型语言模型剪枝后,如何确定最佳后训练数据量以平衡成本和性能是一个挑战。
- 论文提出P$^2$ Law,通过四个关键因素预测剪枝模型后训练损失,指导数据量选择。
- 实验表明,P$^2$ Law适用于不同模型、数据集和剪枝率,为后训练提供有效指导。
📝 摘要(中文)
本文提出了一种名为P$^2$ Law的缩放定律,用于指导大型语言模型(LLMs)剪枝后的后训练过程。剪枝是降低LLMs硬件需求的一种常用技术,而为了恢复剪枝带来的性能下降,通常需要进行后训练。虽然增加后训练数据量通常有益,但当数据集已经很大时,收益会变得有限。为了平衡后训练成本和模型性能,需要探索最佳的后训练数据量。通过在Llama-3和Qwen-2.5系列模型上进行的大量实验,并采用各种常见的剪枝方法,我们发现了模型剪枝后后训练的缩放定律,即P$^2$ Law。该定律确定了四个关键因素,用于预测剪枝模型的后训练损失:剪枝前的模型大小、后训练的token数量、剪枝率以及剪枝前的模型损失。此外,P$^2$ Law可以推广到更大的数据集大小、更大的模型大小和更高的剪枝率,为剪枝LLMs的后训练提供了有价值的见解。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)剪枝后,如何确定最佳后训练数据量的问题。现有方法在数据集较大时,简单增加数据量带来的性能提升有限,且成本较高,缺乏有效指导。
核心思路:论文的核心思路是建立一个缩放定律(P$^2$ Law),该定律能够预测剪枝模型在后训练过程中的损失。通过预测损失,可以更好地平衡后训练的成本和模型性能,从而确定最佳的后训练数据量。该定律基于对模型大小、训练数据量、剪枝率和初始损失之间的关系进行建模。
技术框架:论文通过大量实验,观察不同因素对后训练损失的影响,并基于实验结果拟合出一个数学公式,即P$^2$ Law。该定律将剪枝前的模型大小、后训练的token数量、剪枝率以及剪枝前的模型损失作为输入,预测剪枝模型的后训练损失。整体流程包括:模型剪枝、后训练、损失计算和定律拟合。
关键创新:论文最重要的创新在于发现了P$^2$ Law,这是一个能够有效预测剪枝模型后训练损失的缩放定律。与现有方法相比,P$^2$ Law提供了一种定量的方式来评估后训练的效果,从而指导后训练数据量的选择,避免盲目增加数据量带来的成本。
关键设计:P$^2$ Law的具体形式未知(论文中未明确给出公式),但其关键设计在于考虑了四个核心因素:剪枝前的模型大小(反映了模型的容量)、后训练的token数量(反映了训练强度)、剪枝率(反映了模型结构的改变程度)以及剪枝前的模型损失(反映了模型初始状态)。通过将这些因素纳入考虑,P$^2$ Law能够更准确地预测后训练损失。
🖼️ 关键图片
📊 实验亮点
论文通过在Llama-3和Qwen-2.5系列模型上进行的大量实验验证了P$^2$ Law的有效性。实验涵盖了不同的剪枝方法、数据集大小和剪枝率。结果表明,P$^2$ Law能够准确预测剪枝模型的后训练损失,并为后训练数据量的选择提供有价值的指导。该定律具有良好的泛化能力,可以应用于更大的数据集大小、更大的模型大小和更高的剪枝率。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行剪枝和后训练的场景,例如在资源受限的设备上部署LLMs,或在特定领域对LLMs进行微调。P$^2$ Law能够帮助研究人员和工程师更有效地进行模型压缩和优化,降低计算成本,加速LLMs的部署和应用。
📄 摘要(原文)
Pruning has become a widely adopted technique for reducing the hardware requirements of large language models (LLMs). To recover model performance after pruning, post-training is commonly employed to mitigate the resulting performance degradation. While post-training benefits from larger datasets, once the dataset size is already substantial, increasing the training data provides only limited performance gains. To balance post-training cost and model performance, it is necessary to explore the optimal amount of post-training data.Through extensive experiments on the Llama-3 and Qwen-2.5 series models, pruned using various common pruning methods, we uncover the scaling \textbf{Law} for \textbf{P}ost-training after model \textbf{P}runing, referred to as the P$^2$ Law.This law identifies four key factors for predicting the pruned model's post-training loss: the model size before pruning, the number of post-training tokens, the pruning rate, and the model's loss before pruning. Moreover, P$^2$ Law can generalize to larger dataset sizes, larger model sizes, and higher pruning rates, offering valuable insights for the post-training of pruned LLMs.