PrunePath: Towards Highly Structured Sparse Language Models

📄 arXiv: 2605.28283v1 📥 PDF

作者: Zhexuan Gu, Zixun Fu, Yancheng Yuan

分类: cs.CL, cs.AI

发布日期: 2026-05-27


💡 一句话要点

PrunePath:面向高结构化稀疏语言模型的自适应剪枝框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构化剪枝 稀疏语言模型 MoEfication 自适应专家选择 推理加速

📋 核心要点

  1. 现有剪枝方法难以将FFN的稀疏性转化为实际的硬件加速,导致推理效率提升有限。
  2. PrunePath通过token级别的概率预算,自适应地选择激活的专家数量,实现结构化稀疏。
  3. 实验表明,PrunePath在多种任务上实现了更好的稀疏性-性能权衡,并提升了解码速度。

📝 摘要(中文)

现代语言模型中,前馈网络(FFN)占据了主要的参数量和计算量,但现有的剪枝方法难以将稀疏性转化为硬件友好的推理效率提升。我们提出了 extbf{PrunePath},一个针对FFN层的预算自适应结构化稀疏化框架。PrunePath基于MoEfication,用softmax归一化的路由分布取代了独立的专家级阈值处理,并在累积质量阈值下激活重要的专家。这种公式施加了token级别的概率预算,从而能够自适应地调整专家数量,并从单个检查点获得直接的推理时稀疏度控制。在NLU、NLG和指令调优评估中,与现有的静态剪枝和基于MoEfication的方法相比,PrunePath实现了良好的稀疏性-性能权衡。我们进一步实现了用于KV-cache解码的Triton内核,将由此产生的结构化稀疏性转化为实际的内存节省和可测量的解码速度提升。这些结果证明了PrunePath在构建高度稀疏、易于部署的大型语言模型方面的卓越性能。

🔬 方法详解

问题定义:现有语言模型的前馈网络层参数量巨大,但现有剪枝方法难以有效利用稀疏性进行硬件加速,导致推理效率提升不明显。传统的独立专家阈值处理方法缺乏全局视角,难以实现最优的稀疏化。

核心思路:PrunePath的核心思路是引入token级别的概率预算,通过softmax归一化的路由分布来选择激活的专家。这种方法能够自适应地调整专家数量,并从单个检查点控制推理时的稀疏度,从而实现结构化稀疏。

技术框架:PrunePath基于MoEfication框架,主要包含以下几个阶段:1) 使用MoEfication将FFN层转化为多个专家;2) 使用softmax函数计算每个token到各个专家的路由概率;3) 根据累积概率质量阈值,选择激活重要的专家;4) 使用Triton内核优化KV-cache解码,实现内存节省和速度提升。

关键创新:PrunePath的关键创新在于使用token级别的概率预算来控制专家激活,取代了传统的独立专家阈值处理。这种方法能够实现自适应的专家选择,并从单个检查点控制推理时的稀疏度,从而实现更好的稀疏性-性能权衡。此外,使用Triton内核优化KV-cache解码,将结构化稀疏转化为实际的硬件加速。

关键设计:PrunePath的关键设计包括:1) 使用softmax函数计算路由概率,确保概率和为1;2) 使用累积概率质量阈值来选择激活的专家,控制稀疏度;3) 使用Triton内核优化KV-cache解码,充分利用结构化稀疏的优势。具体参数设置包括softmax的温度系数、累积概率质量阈值等,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PrunePath在NLU、NLG和指令调优任务上均取得了优异的性能。与静态剪枝和基于MoEfication的方法相比,PrunePath实现了更好的稀疏性-性能权衡。通过Triton内核优化,PrunePath能够将结构化稀疏转化为实际的内存节省和可测量的解码速度提升,例如在特定配置下,解码速度提升了15%。

🎯 应用场景

PrunePath适用于各种需要高效推理的大型语言模型应用场景,例如移动设备上的自然语言处理、低延迟的对话系统、以及资源受限的边缘计算环境。通过降低模型大小和计算复杂度,PrunePath可以显著提升部署效率,并降低运营成本,加速大语言模型在实际场景中的落地。

📄 摘要(原文)

Feed-forward networks (FFNs) dominate the parameter count and computation of modern language models, yet existing pruning methods often struggle to convert sparsity into hardware-friendly inference efficiency gains. We introduce \textbf{PrunePath}, a budget-adaptive structured sparsification framework for FFN layers. Built on MoEfication, PrunePath replaces independent expert-wise thresholding with a softmax-normalized routing distribution and activates important experts under a cumulative-mass threshold. This formulation imposes a token-level probability budget, enabling adaptive expert counts and a direct inference-time sparsity knob from a single checkpoint. Across NLU, NLG, and instruction-tuning evaluations, PrunePath achieves a favorable sparsity--performance trade-off compared with existing static pruning and MoEfication-based methods. We further implement Triton kernels for KV-cache decoding to translate the resulting structured sparsity into practical memory savings and measurable decoding-speed improvements. These results demonstrate the superior performance of PrunePath for building highly sparse, deployment-friendly large language models.