Beware of Calibration Data for Pruning Large Language Models

📄 arXiv: 2410.17711v2 📥 PDF

作者: Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-23 (更新: 2025-06-29)

备注: Published as a conference paper at ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

揭示校准数据对LLM剪枝的重要性,提出自生成校准数据策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型剪枝 后训练剪枝 校准数据 自生成数据 模型压缩 稀疏性 LLM

📋 核心要点

  1. 现有后训练剪枝方法依赖校准数据评估参数重要性,但缺乏对校准数据本身影响的系统研究。
  2. 提出自生成校准数据策略,通过合成与预训练数据相似的校准数据来提升剪枝性能。
  3. 实验表明,该策略能显著提升Wanda、DSnoT、OWL等剪枝方法在DCLM、LLaMA-3上的性能。

📝 摘要(中文)

随着大型语言模型(LLMs)在各个领域的广泛应用,模型压缩对于降低成本和提高推理效率变得至关重要。后训练剪枝是一种很有前途的方法,它不需要资源密集型的迭代训练,只需要少量的校准数据来评估参数的重要性。最近的研究从不同方面增强了后训练剪枝,但很少有研究系统地探讨校准数据的影响,也不清楚是否存在更好的校准数据构建策略。我们填补了这一空白,并惊奇地发现校准数据对于后训练剪枝也至关重要,尤其是在高稀疏性下。通过对校准数据的重要影响因素(包括剪枝设置、数据量及其与预训练数据的相似性)进行受控实验,我们观察到少量数据就足够了,并且与预训练阶段更相似的数据可以产生更好的性能。由于预训练数据通常对于高级LLM来说是不可访问的,我们进一步提供了一种自生成校准数据合成策略来构建可行的校准数据。在最近强大的开源LLM(例如DCLM和LLaMA-3)上的实验结果表明,所提出的策略可以大幅提高强大的剪枝方法(例如Wanda,DSnoT,OWL)的性能(高达2.68%)。代码可在https://github.com/Dereck0602/calibration_data获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)后训练剪枝过程中,校准数据对剪枝性能影响不明确的问题。现有方法通常忽略校准数据构建策略,导致剪枝效果受限,尤其是在高稀疏度下。预训练数据不可访问也限制了校准数据的选择。

核心思路:论文的核心在于揭示校准数据对后训练剪枝的重要性,并提出一种自生成校准数据策略。该策略旨在合成与预训练数据分布相似的校准数据,从而更准确地评估参数重要性,提升剪枝性能。核心假设是:与预训练数据更相似的校准数据能更好地反映模型参数的真实重要性。

技术框架:论文的技术框架主要包含以下几个阶段:1) 分析校准数据的影响因素,包括数据量、与预训练数据的相似度等;2) 提出自生成校准数据策略,利用LLM自身生成数据;3) 将生成的校准数据应用于不同的剪枝方法(如Wanda、DSnoT、OWL);4) 在多个LLM(如DCLM、LLaMA-3)上进行实验,评估剪枝性能。

关键创新:论文的关键创新在于:1) 系统性地研究了校准数据对LLM后训练剪枝的影响,填补了该领域的空白;2) 提出了自生成校准数据策略,解决了预训练数据不可访问的问题,为实际应用提供了可行方案。该策略无需额外的人工标注或外部数据,降低了使用成本。

关键设计:自生成校准数据策略的关键设计在于如何保证生成的数据与预训练数据相似。具体实现细节未知,但推测可能使用了某种形式的prompting或约束,引导LLM生成特定风格或主题的数据。论文可能还探索了不同的生成参数设置,以优化校准数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的自生成校准数据策略可以显著提升现有剪枝方法的性能。例如,在DCLM和LLaMA-3等模型上,使用该策略后,Wanda、DSnoT、OWL等剪枝方法的性能提升高达2.68%。这表明校准数据对剪枝性能至关重要,并且该策略能够有效改善剪枝效果。

🎯 应用场景

该研究成果可应用于各种需要压缩大型语言模型的场景,例如移动设备部署、边缘计算、低功耗设备等。通过优化校准数据,可以提高剪枝效率,降低模型大小和计算成本,从而加速LLM在资源受限环境中的应用。

📄 摘要(原文)

As large language models (LLMs) are widely applied across various fields, model compression has become increasingly crucial for reducing costs and improving inference efficiency. Post-training pruning is a promising method that does not require resource-intensive iterative training and only needs a small amount of calibration data to assess the importance of parameters. Recent research has enhanced post-training pruning from different aspects but few of them systematically explore the effects of calibration data, and it is unclear if there exist better calibration data construction strategies. We fill this blank and surprisingly observe that calibration data is also crucial to post-training pruning, especially for high sparsity. Through controlled experiments on important influence factors of calibration data, including the pruning settings, the amount of data, and its similarity with pre-training data, we observe that a small size of data is adequate, and more similar data to its pre-training stage can yield better performance. As pre-training data is usually inaccessible for advanced LLMs, we further provide a self-generating calibration data synthesis strategy to construct feasible calibration data. Experimental results on recent strong open-source LLMs (e.g., DCLM, and LLaMA-3) show that the proposed strategy can enhance the performance of strong pruning methods (e.g., Wanda, DSnoT, OWL) by a large margin (up to $2.68\%$). Code is available at https://github.com/Dereck0602/calibration_data.