Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning

作者: Hu Xu, Zhaolong Xing, Congcong Liu, Jiaxing Wang, Zhida Jiang, Junshi Huang, Zhen Chen, Jianfeng Xu

分类: cs.LG, cs.AI

发布日期: 2026-06-02

💡 一句话要点

提出多源混合校准以提升高稀疏性LLM剪枝效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后训练剪枝 多源校准 信息引导自校准 能力维度 模型压缩 自然语言处理

📋 核心要点

现有方法在大型语言模型的剪枝过程中，校准源选择对不同能力维度的影响未被充分考虑。
论文提出了信息引导自校准协议IGSP，通过多源混合校准来优化模型能力保留，克服单一校准源的局限。
在LLaMA-3.1-8B模型上，使用IGSP方法实现了58.8%的总保留率，显著超越了最佳单一源和默认基线。

📝 摘要（中文）

后训练剪枝通过使用小规模未标记的校准集，将大型语言模型压缩到高稀疏性。近期研究表明，校准源的选择对后剪枝准确度的影响有限。然而，本文探讨了在不同能力维度上评估校准影响的必要性。通过对15个校准源进行分析，发现校准困惑度与一般能力保留呈正相关，但与数学和代码能力保留呈负相关。因此，单一来源无法同时保留所有能力。为此，提出了多源校准混合方法IGSP，自动化构建多源校准集，显著提升了模型的保留率。

🔬 方法详解

问题定义：本文旨在解决在大型语言模型剪枝中，校准源选择对不同能力维度影响不足的问题。现有方法未能充分考虑校准源的多样性，导致能力保留不均衡。

核心思路：论文提出的信息引导自校准协议IGSP，通过多源混合校准，自动构建校准集，旨在平衡不同能力维度的困惑度，从而提升模型的整体性能。

技术框架：IGSP的整体架构包括数据源选择、信息度量分析和自校准过程。首先，分析多个校准源的性能，然后通过最小化4-gram聚合来优化校准集的构建。

关键创新：最重要的创新在于提出了多源混合校准方法，能够在没有能力对齐语料的情况下，自动化构建校准集，解决了单一校准源无法兼顾所有能力维度的问题。

关键设计：在参数设置上，IGSP通过平衡不同维度的困惑度来优化校准集，使用Spearman相关性分析来评估不同校准源的影响，确保每个维度的保留率最大化。

🖼️ 关键图片

📊 实验亮点

在LLaMA-3.1-8B模型上，采用IGSP方法的均匀多源混合校准实现了58.8%的总保留率，超越了最佳单一源MetaMath（50.0%）和C4默认（40.0%）分别提升了8.8%和18.8%。此外，IGSP相比于Self-Cal和SGS分别提高了2.4%和4.8%。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过提升大型语言模型的剪枝效果，能够在资源受限的环境中实现更高效的模型部署，降低计算成本，同时保持模型性能。未来，该方法可能推动更广泛的模型压缩技术的发展，促进AI技术的普及与应用。

📄 摘要（原文）

Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concluded that the choice of calibration source has only modest impact on averaged post-pruning accuracy. We ask whether this conclusion survives once calibration impact is evaluated separately across distinct capability dimensions rather than aggregated. Decomposing post-pruning capability into General, Commonsense, Code, and Math, and analysing $n{=}15$ calibration sources via Spearman correlations between OIT information metrics and per-dimension retention, we uncover an opposite-sign trade-off: calibration perplexity correlates positively with General retention ($ρ{=}{+}0.71$) but negatively with Math and Code retention ($ρ{=}{-}0.53,\,{-}0.59$; $p{<}0.05$), so no single source can preserve all capabilities. We respond with multi-source calibration mixing, and propose IGSP, an information-guided self-calibration protocol that automates multi-source construction without capability-aligned corpora by minimising 4-gram aggregation and balancing perplexity across dimensions. On LLaMA-3.1-8B at SparseGPT 60% sparsity, a uniform multi-source mix reaches 58.8% total retention, outperforming the best single source (MetaMath, 50.0%) by $+8.8$ and the C4 default (40.0%) by $+18.8$; IGSP improves over Self-Cal by $+2.4$ and SGS by $+4.8$.

Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理