E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models

📄 arXiv: 2511.17205v1 📥 PDF

作者: Tao Yuan, Haoli Bai, Yinfei Pan, Xuyang Cao, Tianyu Zhang, Lu Hou, Ting Hu, Xianzhi Yu

分类: cs.CL

发布日期: 2025-11-21


💡 一句话要点

E$^3$-Pruner:面向大语言模型的高效、经济、有效层剪枝框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 层剪枝 模型压缩 知识蒸馏 可微掩码 Gumbel-TopK 推理加速

📋 核心要点

  1. 现有层剪枝方法在性能、训练成本和推理效率上难以兼顾,限制了其在大语言模型上的实际应用。
  2. E$^3$-Pruner通过可微掩码优化和熵感知自适应知识蒸馏,实现了高效、经济和有效的层剪枝。
  3. 实验表明,E$^3$-Pruner在保持较高准确率的同时,显著降低了训练成本并提升了推理速度,优于现有方法。

📝 摘要(中文)

随着大型语言模型规模的不断增大,层剪枝作为一种硬件友好的模型压缩方法受到了越来越多的关注。然而,现有的层剪枝方法难以同时解决实际部署中的关键挑战,包括性能下降、高训练成本和有限的加速效果。为了克服这些限制,我们提出了E$^3$-Pruner,一个任务有效、训练经济、推理高效的层剪枝框架。该框架引入了两项关键创新:(1) 一种使用Gumbel-TopK采样器的可微掩码优化方法,能够实现高效而精确的剪枝掩码搜索;(2) 一种感知熵的自适应知识蒸馏策略,可以增强任务性能。在多种模型架构和基准测试上的大量实验表明,我们的方法优于最先进的方法。值得注意的是,在剪枝Qwen3-32B的25%层时,E$^3$-Pruner在MATH-500上实现了96%的准确率,仅比原始模型(96.8%)下降0.8%,优于现有的SOTA(95%),并且仅消耗0.5B tokens(占后训练数据量的0.5%)即可实现1.33倍的推理加速。

🔬 方法详解

问题定义:论文旨在解决大语言模型层剪枝中性能下降、训练成本高昂和推理效率受限的问题。现有方法通常难以在剪枝过程中保持模型性能,或者需要大量的训练资源进行微调,并且剪枝后的模型加速效果不明显。

核心思路:论文的核心思路是通过可微掩码优化来精确搜索最佳剪枝方案,并利用熵感知自适应知识蒸馏来弥补剪枝带来的性能损失。可微掩码优化降低了搜索成本,知识蒸馏则提升了剪枝后模型的泛化能力。

技术框架:E$^3$-Pruner框架主要包含两个阶段:(1) 可微掩码优化阶段:使用Gumbel-TopK采样器生成可微的剪枝掩码,并通过梯度下降优化掩码,从而确定需要剪枝的层。(2) 熵感知自适应知识蒸馏阶段:利用原始模型作为教师模型,指导剪枝后的学生模型学习,并根据每一层的熵值动态调整蒸馏损失的权重。

关键创新:该方法最重要的技术创新在于结合了可微掩码优化和熵感知自适应知识蒸馏。可微掩码优化避免了传统剪枝方法中需要大量离散搜索的问题,显著降低了计算成本。熵感知自适应知识蒸馏则能够更有效地利用原始模型的知识,弥补剪枝带来的信息损失。

关键设计:(1) Gumbel-TopK采样器:用于生成可微的剪枝掩码,允许通过梯度下降优化掩码。(2) 熵感知损失权重:根据每一层的熵值动态调整知识蒸馏损失的权重,使得模型更加关注重要层的知识学习。(3) 剪枝比例:实验中探索了不同的剪枝比例,以找到性能和效率之间的最佳平衡点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E$^3$-Pruner在Qwen3-32B模型上进行了实验,结果表明,在剪枝25%的层后,MATH-500数据集上的准确率仅下降0.8%,达到96%,优于现有SOTA方法(95%)。同时,推理速度提升了1.33倍,且仅需消耗0.5B tokens进行训练,显著降低了训练成本。

🎯 应用场景

E$^3$-Pruner可应用于大语言模型的轻量化部署,例如在资源受限的边缘设备上运行大型模型。该方法能够降低模型的计算复杂度和存储空间需求,从而加速推理过程并降低能耗。此外,该方法还可以用于模型压缩,减少模型训练和部署的成本,促进大语言模型在各个领域的广泛应用。

📄 摘要(原文)

With the increasing size of large language models, layer pruning has gained increased attention as a hardware-friendly approach for model compression. However, existing layer pruning methods struggle to simultaneously address key practical deployment challenges, including performance degradation, high training costs, and limited acceleration. To overcome these limitations, we propose \name, a task-\underline{E}ffective, training-\underline{E}conomical and inference-\underline{E}fficient layer pruning framework. \namespace introduces two key innovations: (1) a differentiable mask optimization method using a Gumbel-TopK sampler, enabling efficient and precise pruning mask search; and (2) an entropy-aware adaptive knowledge distillation strategy that enhances task performance. Extensive experiments over diverse model architectures and benchmarks demonstrate the superiority of our method over state-of-the-art approaches. Notably, \namespace achieves 96\% accuracy, a mere 0.8\% drop from the original model (96.8\%) on MATH-500 when pruning 25\% layers of Qwen3-32B, outperforming existing SOTA (95\%), with a 1.33$\times$ inference speedup by consuming merely 0.5B tokens (0.5\% of the post-training data volume).