High-Fidelity Pruning for Large Language Models
作者: Yijun Zhu, Jianxin Wang, Chengchao Shen
分类: cs.CL
发布日期: 2026-03-09
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于信息熵的LLM高保真剪枝方法,提升部署效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型剪枝 泰勒剪枝 信息熵 模型压缩
📋 核心要点
- 现有基于泰勒展开的LLM剪枝方法依赖one-hot交叉熵损失,评估神经元重要性时考虑不全面。
- 提出利用模型输出分布的信息熵来评估神经元重要性,无需额外教师模型,计算效率高。
- 实验表明,该方法在LLaMA和Qwen系列模型上优于现有剪枝方法,提升模型保真度。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中表现出卓越的性能,但其巨大的计算和内存需求给部署带来了重大挑战。一种常见的方法是使用损失函数的泰勒展开来估计神经元的重要性。然而,这种方法依赖于one-hot交叉熵损失,其关键局限性在于,它仅基于分配给单个预测的下一个token的概率来评估重要性,从而忽略了原始模型的其他潜在预测。一个直观的解决方案是采用自蒸馏准则进行重要性评估。然而,这种方法需要一个单独的教师模型进行监督,从而引入了显著的计算开销。为此,我们提出了一种简单而有效的准则,即模型输出分布的信息熵,以有效地评估神经元的重要性,并使用泰勒剪枝,而无需额外的教师模型。与普通的交叉熵准则相比,它为泰勒剪枝提供了一个更全面的准则,以全局方式剪枝对模型预测影响最小的神经元,从而保持模型预测能力的保真度。在广泛的zero-shot基准测试上的实验结果表明,我们的方法在LLaMA和Qwen系列模型上始终优于现有的剪枝方法。源代码和训练权重可在https://github.com/visresearch/HFPrune获得。
🔬 方法详解
问题定义:现有基于泰勒展开的剪枝方法,通常使用one-hot交叉熵损失来评估神经元的重要性。这种方法只关注模型预测的单个token,忽略了模型输出分布中的其他潜在预测,导致重要性评估不准确,剪枝后模型性能下降。
核心思路:论文的核心思路是使用模型输出分布的信息熵来更全面地评估神经元的重要性。信息熵能够反映模型预测的不确定性,熵值越低表示模型预测越自信,反之则越不自信。通过计算每个神经元对模型输出信息熵的影响,可以更准确地评估其重要性。
技术框架:该方法基于泰勒剪枝框架,主要步骤包括:1) 计算模型输出分布的信息熵;2) 使用泰勒展开估计每个神经元对信息熵的影响;3) 根据重要性得分对神经元进行排序;4) 剪枝重要性较低的神经元。该方法不需要额外的教师模型,可以直接在原始模型上进行剪枝。
关键创新:该方法最重要的创新点在于使用信息熵作为神经元重要性的评估标准,替代了传统的one-hot交叉熵损失。信息熵能够更全面地反映模型预测的不确定性,从而更准确地评估神经元的重要性。此外,该方法无需额外的教师模型,降低了计算成本。
关键设计:论文的关键设计包括:1) 使用softmax函数将模型输出转换为概率分布;2) 使用香农熵公式计算信息熵;3) 使用一阶泰勒展开近似计算神经元对信息熵的影响;4) 使用剪枝比例作为超参数,控制剪枝的程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在LLaMA和Qwen系列模型上取得了显著的性能提升。在zero-shot基准测试中,该方法优于现有的剪枝方法,能够在保持模型性能的同时,显著降低模型大小。例如,在某些任务上,该方法可以在不损失精度的情况下,将模型大小降低到原来的50%甚至更低。
🎯 应用场景
该研究成果可应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等。通过剪枝降低模型大小和计算复杂度,可以在资源受限的环境中部署LLM,并提升推理速度。此外,该方法还可以用于模型压缩和加速,降低训练和推理成本,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated exceptional performance across a wide range of tasks, yet their significant computational and memory requirements present major challenges for deployment. A common approach uses Taylor expansion on the loss function to estimate neuron importance. However, its reliance on one-hot cross entropy loss, a key limitation is that it narrowly assesses importance based only on the probability assigned to the single predicted next token, thereby ignoring the other potential predictions of the original model. An intuitive solution to address this is to employ self distillation criterion for importance evaluation. However, this approach introduces significant computational overhead by requiring a separate teacher model for supervision. To this end, we propose a simple but effective criterion, information entropy of the model's output distribution, to efficiently evaluate importance scores of neurons with Taylor pruning without requirement of additional teacher. Compared to plain cross entropy criterion, it provides a more holistic criterion for Taylor pruning to prune neurons with the least impact on the prediction of model in a global manner, thereby preserving the fidelity of the model's predictive capabilities. Experimental results on extensive zero-shot benchmarks demonstrate that our method consistently outperforms existing pruning methods across the LLaMA and Qwen series models. The source code and trained weights are availabel at https://github.com/visresearch/HFPrune.