Deterministic Differentiable Structured Pruning for Large Language Models

作者: Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen

分类: cs.LG, cs.CL

发布日期: 2026-03-09

💡 一句话要点

提出确定性可微结构化剪枝(DDP)，用于高效压缩大型语言模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 结构化剪枝 大型语言模型 确定性优化 可微剪枝 模型压缩

📋 核心要点

现有结构化剪枝方法依赖随机松弛，导致训练-测试不匹配和表达能力受限。
DDP直接优化离散l0目标的确定性软代理，消除随机性，提升表达性并加速收敛。
实验表明，DDP在Qwen3等模型上实现了优于现有方法的剪枝效果，且推理速度更快。

📝 摘要（中文）

结构化剪枝通过移除低重要性的架构组件来降低LLM的推理成本。这可以被视为学习一个乘法门，对每个组件施加l0稀疏约束。由于l0范数的离散性，先前的工作通常采用随机硬混凝土松弛来实现可微优化；然而，这种随机性会在采样掩码被离散化以进行部署时引入训练-测试不匹配，并将掩码限制在有界的、接近二元的范围内。为了解决这个问题，我们提出了确定性可微剪枝（DDP），这是一种仅掩码优化方法，通过直接优化离散l0目标的确定性软代理来消除随机性。与先前的方法相比，DDP提供了更大的表达性，减少了训练-测试不匹配，并加快了收敛速度。我们将我们的方法应用于几个密集和MoE模型，包括Qwen3-32B和Qwen3-30B-A3B，在下游任务上实现了低至1%的性能损失，同时在20%的稀疏性下优于以前的方法。我们进一步展示了在vLLM的实际部署设置中的端到端推理加速。

🔬 方法详解

问题定义：大型语言模型（LLM）的结构化剪枝旨在降低推理成本，但现有方法通常采用基于随机松弛的优化策略，例如hard-concrete relaxation。这些方法引入了训练和测试之间的不一致性，因为训练时使用随机掩码，而部署时使用离散掩码。此外，这些方法限制了掩码的表达能力，使其接近二元，无法充分探索更复杂的剪枝模式。

核心思路：DDP的核心思想是直接优化离散l0目标的确定性软代理，避免使用随机松弛。通过设计一个确定性的可微掩码生成过程，DDP能够在训练过程中学习到更精确、更有效的剪枝掩码，从而减少训练-测试不匹配，并提高剪枝后的模型性能。

技术框架：DDP主要包含以下几个步骤：首先，为模型的每个可剪枝组件（例如，注意力头、MLP层）引入一个掩码变量。然后，设计一个确定性的函数，将这些掩码变量映射到[0, 1]范围内的软掩码。这个函数需要是可微的，以便能够使用梯度下降进行优化。接下来，定义一个损失函数，包括一个性能损失项和一个稀疏性约束项（基于l0范数的软代理）。最后，使用优化器更新掩码变量，从而学习到最优的剪枝掩码。

关键创新：DDP的关键创新在于提出了一个确定性的可微掩码生成方法，避免了随机松弛带来的问题。与现有方法相比，DDP能够更精确地控制剪枝过程，学习到更有效的剪枝掩码，从而在保持模型性能的同时，实现更高的压缩率。

关键设计：DDP的关键设计包括：1) 使用sigmoid函数或其他平滑函数作为软掩码生成器，确保可微性；2) 设计合适的l0范数软代理，例如使用sigmoid函数的积分或近似；3) 精心调整稀疏性约束的权重，以平衡模型性能和压缩率；4) 采用mask-only的优化策略，只更新掩码变量，保持模型权重不变。

🖼️ 关键图片

📊 实验亮点

DDP在Qwen3-32B和Qwen3-30B-A3B等模型上进行了实验，结果表明，在20%的稀疏性下，DDP能够以仅1%的性能损失优于现有方法。此外，DDP在vLLM的实际部署环境中实现了端到端的推理加速，验证了其在实际应用中的有效性。

🎯 应用场景

DDP可应用于各种大型语言模型的压缩和加速，尤其适用于资源受限的边缘设备或对推理延迟有严格要求的场景。通过降低模型大小和计算复杂度，DDP能够使LLM在移动设备、嵌入式系统等平台上高效部署，并加速在线推理服务，提升用户体验。

📄 摘要（原文）

Structured pruning reduces LLM inference cost by removing low-importance architectural components. This can be viewed as learning a multiplicative gate for each component under an l0 sparsity constraint. Due to the discreteness of the l0 norm, prior work typically adopts stochastic hard-concrete relaxations to enable differentiable optimization; however, this stochasticity can introduce a train--test mismatch when sampled masks are discretized for deployment and restricts masks to a bounded, near-binary range. To address this, we propose Deterministic Differentiable Pruning (DDP), a mask-only optimization method that eliminates stochasticity by directly optimizing a deterministic soft surrogate of the discrete l0 objective. Compared with prior approaches, DDP offers greater expressiveness, reduced train--test mismatch, and faster convergence. We apply our method to several dense and MoE models, including Qwen3-32B and Qwen3-30B-A3B, achieving a performance loss as small as 1% on downstream tasks while outperforming previous methods at 20% sparsity. We further demonstrate end-to-end inference speedups in realistic deployment settings with vLLM.

Deterministic Differentiable Structured Pruning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理