Deterministic Differentiable Structured Pruning for Large Language Models

📄 arXiv: 2603.08065v1 📥 PDF

作者: Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen

分类: cs.LG, cs.CL

发布日期: 2026-03-09


💡 一句话要点

提出确定性可微结构化剪枝(DDP),用于高效压缩大型语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构化剪枝 大型语言模型 确定性优化 可微剪枝 模型压缩

📋 核心要点

  1. 现有结构化剪枝方法依赖随机松弛,导致训练-测试不匹配和表达能力受限。
  2. DDP直接优化离散l0目标的确定性软代理,消除随机性,提升表达性并加速收敛。
  3. 实验表明,DDP在Qwen3等模型上实现了优于现有方法的剪枝效果,且推理速度更快。

📝 摘要(中文)

结构化剪枝通过移除低重要性的架构组件来降低LLM的推理成本。这可以被视为学习一个乘法门,对每个组件施加l0稀疏约束。由于l0范数的离散性,先前的工作通常采用随机硬混凝土松弛来实现可微优化;然而,这种随机性会在采样掩码被离散化以进行部署时引入训练-测试不匹配,并将掩码限制在有界的、接近二元的范围内。为了解决这个问题,我们提出了确定性可微剪枝(DDP),这是一种仅掩码优化方法,通过直接优化离散l0目标的确定性软代理来消除随机性。与先前的方法相比,DDP提供了更大的表达性,减少了训练-测试不匹配,并加快了收敛速度。我们将我们的方法应用于几个密集和MoE模型,包括Qwen3-32B和Qwen3-30B-A3B,在下游任务上实现了低至1%的性能损失,同时在20%的稀疏性下优于以前的方法。我们进一步展示了在vLLM的实际部署设置中的端到端推理加速。

🔬 方法详解

问题定义:大型语言模型(LLM)的结构化剪枝旨在降低推理成本,但现有方法通常采用基于随机松弛的优化策略,例如hard-concrete relaxation。这些方法引入了训练和测试之间的不一致性,因为训练时使用随机掩码,而部署时使用离散掩码。此外,这些方法限制了掩码的表达能力,使其接近二元,无法充分探索更复杂的剪枝模式。

核心思路:DDP的核心思想是直接优化离散l0目标的确定性软代理,避免使用随机松弛。通过设计一个确定性的可微掩码生成过程,DDP能够在训练过程中学习到更精确、更有效的剪枝掩码,从而减少训练-测试不匹配,并提高剪枝后的模型性能。

技术框架:DDP主要包含以下几个步骤:首先,为模型的每个可剪枝组件(例如,注意力头、MLP层)引入一个掩码变量。然后,设计一个确定性的函数,将这些掩码变量映射到[0, 1]范围内的软掩码。这个函数需要是可微的,以便能够使用梯度下降进行优化。接下来,定义一个损失函数,包括一个性能损失项和一个稀疏性约束项(基于l0范数的软代理)。最后,使用优化器更新掩码变量,从而学习到最优的剪枝掩码。

关键创新:DDP的关键创新在于提出了一个确定性的可微掩码生成方法,避免了随机松弛带来的问题。与现有方法相比,DDP能够更精确地控制剪枝过程,学习到更有效的剪枝掩码,从而在保持模型性能的同时,实现更高的压缩率。

关键设计:DDP的关键设计包括:1) 使用sigmoid函数或其他平滑函数作为软掩码生成器,确保可微性;2) 设计合适的l0范数软代理,例如使用sigmoid函数的积分或近似;3) 精心调整稀疏性约束的权重,以平衡模型性能和压缩率;4) 采用mask-only的优化策略,只更新掩码变量,保持模型权重不变。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DDP在Qwen3-32B和Qwen3-30B-A3B等模型上进行了实验,结果表明,在20%的稀疏性下,DDP能够以仅1%的性能损失优于现有方法。此外,DDP在vLLM的实际部署环境中实现了端到端的推理加速,验证了其在实际应用中的有效性。

🎯 应用场景

DDP可应用于各种大型语言模型的压缩和加速,尤其适用于资源受限的边缘设备或对推理延迟有严格要求的场景。通过降低模型大小和计算复杂度,DDP能够使LLM在移动设备、嵌入式系统等平台上高效部署,并加速在线推理服务,提升用户体验。

📄 摘要(原文)

Structured pruning reduces LLM inference cost by removing low-importance architectural components. This can be viewed as learning a multiplicative gate for each component under an l0 sparsity constraint. Due to the discreteness of the l0 norm, prior work typically adopts stochastic hard-concrete relaxations to enable differentiable optimization; however, this stochasticity can introduce a train--test mismatch when sampled masks are discretized for deployment and restricts masks to a bounded, near-binary range. To address this, we propose Deterministic Differentiable Pruning (DDP), a mask-only optimization method that eliminates stochasticity by directly optimizing a deterministic soft surrogate of the discrete l0 objective. Compared with prior approaches, DDP offers greater expressiveness, reduced train--test mismatch, and faster convergence. We apply our method to several dense and MoE models, including Qwen3-32B and Qwen3-30B-A3B, achieving a performance loss as small as 1% on downstream tasks while outperforming previous methods at 20% sparsity. We further demonstrate end-to-end inference speedups in realistic deployment settings with vLLM.