Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning
作者: Hu Xu, Zhaolong Xing, Congcong Liu, Jiaxing Wang, Zhida Jiang, Junshi Huang, Zhen Chen, Jianfeng Xu
分类: cs.LG, cs.AI
发布日期: 2026-06-02
💡 一句话要点
提出多源混合校准以提升高稀疏性LLM剪枝效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 后训练剪枝 多源校准 信息引导自校准 能力维度 模型压缩 自然语言处理
📋 核心要点
- 现有方法在大型语言模型的剪枝过程中,校准源选择对不同能力维度的影响未被充分考虑。
- 论文提出了信息引导自校准协议IGSP,通过多源混合校准来优化模型能力保留,克服单一校准源的局限。
- 在LLaMA-3.1-8B模型上,使用IGSP方法实现了58.8%的总保留率,显著超越了最佳单一源和默认基线。
📝 摘要(中文)
后训练剪枝通过使用小规模未标记的校准集,将大型语言模型压缩到高稀疏性。近期研究表明,校准源的选择对后剪枝准确度的影响有限。然而,本文探讨了在不同能力维度上评估校准影响的必要性。通过对15个校准源进行分析,发现校准困惑度与一般能力保留呈正相关,但与数学和代码能力保留呈负相关。因此,单一来源无法同时保留所有能力。为此,提出了多源校准混合方法IGSP,自动化构建多源校准集,显著提升了模型的保留率。
🔬 方法详解
问题定义:本文旨在解决在大型语言模型剪枝中,校准源选择对不同能力维度影响不足的问题。现有方法未能充分考虑校准源的多样性,导致能力保留不均衡。
核心思路:论文提出的信息引导自校准协议IGSP,通过多源混合校准,自动构建校准集,旨在平衡不同能力维度的困惑度,从而提升模型的整体性能。
技术框架:IGSP的整体架构包括数据源选择、信息度量分析和自校准过程。首先,分析多个校准源的性能,然后通过最小化4-gram聚合来优化校准集的构建。
关键创新:最重要的创新在于提出了多源混合校准方法,能够在没有能力对齐语料的情况下,自动化构建校准集,解决了单一校准源无法兼顾所有能力维度的问题。
关键设计:在参数设置上,IGSP通过平衡不同维度的困惑度来优化校准集,使用Spearman相关性分析来评估不同校准源的影响,确保每个维度的保留率最大化。
🖼️ 关键图片
📊 实验亮点
在LLaMA-3.1-8B模型上,采用IGSP方法的均匀多源混合校准实现了58.8%的总保留率,超越了最佳单一源MetaMath(50.0%)和C4默认(40.0%)分别提升了8.8%和18.8%。此外,IGSP相比于Self-Cal和SGS分别提高了2.4%和4.8%。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过提升大型语言模型的剪枝效果,能够在资源受限的环境中实现更高效的模型部署,降低计算成本,同时保持模型性能。未来,该方法可能推动更广泛的模型压缩技术的发展,促进AI技术的普及与应用。
📄 摘要(原文)
Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concluded that the choice of calibration source has only modest impact on averaged post-pruning accuracy. We ask whether this conclusion survives once calibration impact is evaluated separately across distinct capability dimensions rather than aggregated. Decomposing post-pruning capability into General, Commonsense, Code, and Math, and analysing $n{=}15$ calibration sources via Spearman correlations between OIT information metrics and per-dimension retention, we uncover an opposite-sign trade-off: calibration perplexity correlates positively with General retention ($ρ{=}{+}0.71$) but negatively with Math and Code retention ($ρ{=}{-}0.53,\,{-}0.59$; $p{<}0.05$), so no single source can preserve all capabilities. We respond with multi-source calibration mixing, and propose IGSP, an information-guided self-calibration protocol that automates multi-source construction without capability-aligned corpora by minimising 4-gram aggregation and balancing perplexity across dimensions. On LLaMA-3.1-8B at SparseGPT 60% sparsity, a uniform multi-source mix reaches 58.8% total retention, outperforming the best single source (MetaMath, 50.0%) by $+8.8$ and the C4 default (40.0%) by $+18.8$; IGSP improves over Self-Cal by $+2.4$ and SGS by $+4.8$.