Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization

📄 arXiv: 2503.09657v4 📥 PDF

作者: Guanchen Li, Yixing Xu, Zeping Li, Ji Liu, Xuanwu Yin, Dong Li, Emad Barsoum

分类: cs.LG

发布日期: 2025-03-12 (更新: 2025-10-21)

🔗 代码/项目: GITHUB


💡 一句话要点

Týr-the-Pruner:通过全局稀疏度分布优化实现LLM结构化剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 结构化剪枝 全局稀疏度优化 超网络 端到端优化

📋 核心要点

  1. 现有结构化剪枝方法难以在提升LLM推理效率的同时保持性能,局部剪枝忽略全局拓扑,全局剪枝则缺乏端到端优化。
  2. Týr-the-Pruner通过构建超网络并搜索最优稀疏度分布,实现了端到端的全局结构化剪枝,优化了模型压缩。
  3. 实验表明,Týr-the-Pruner在移除Llama-3.1-70B模型50%参数的情况下,仍能保留97%的原始性能,效果显著。

📝 摘要(中文)

结构化剪枝能够提升大语言模型(LLMs)在各种硬件上的推理效率,但通常难以保持与原始模型相当的性能。局部剪枝虽然能高效地逐层压缩模型,却忽略了全局拓扑结构。全局剪枝旨在找到最优的稀疏模型,但传统方法通常采用两阶段范式,先评估子结构的显著性,再进行全局剪枝,忽略了结构间的依赖关系,无法实现端到端优化。为了解决这些问题,我们提出了Týr-the-Pruner,一个高效的、基于搜索的端到端全局结构化剪枝框架。该框架通过在LLM的每一层重复应用不同稀疏比例的局部剪枝来构建一个超网络,其核心目标是在目标总体稀疏度下确定最优的稀疏度分布。具体而言,我们引入了一种有效的局部剪枝方法和期望误差累积方法来改进超网络的构建。此外,我们采用了一种迭代的剪枝-搜索策略,使用由粗到精的稀疏粒度,以确保高效的搜索收敛。实验结果表明,Týr-the-Pruner实现了最先进的结构化剪枝效果,在移除Llama-3.1-70B模型50%参数的同时,保留了97%的稠密模型性能。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)结构化剪枝中,现有方法无法兼顾推理效率提升和性能保持的问题。局部剪枝虽然高效,但忽略了全局结构信息;全局剪枝虽然考虑全局,但通常采用两阶段方法,无法进行端到端优化,导致剪枝后的模型性能下降。

核心思路:论文的核心思路是通过构建一个超网络,并在该超网络中搜索最优的稀疏度分布,从而实现端到端的全局结构化剪枝。这种方法能够同时考虑局部和全局的信息,并优化剪枝过程,从而在保证模型性能的同时,提高推理效率。

技术框架:Týr-the-Pruner框架主要包含以下几个阶段:1) 超网络构建:通过在LLM的每一层应用不同稀疏比例的局部剪枝,构建一个包含多种稀疏结构的超网络。2) 期望误差累积:使用期望误差累积方法来评估超网络中不同稀疏结构的性能。3) 迭代剪枝-搜索:采用迭代的剪枝-搜索策略,使用由粗到精的稀疏粒度,在超网络中搜索最优的稀疏度分布。

关键创新:论文的关键创新在于提出了一个端到端的全局结构化剪枝框架,该框架能够同时考虑局部和全局的信息,并优化剪枝过程。此外,论文还提出了一种有效的局部剪枝方法和期望误差累积方法,用于改进超网络的构建。

关键设计:论文的关键设计包括:1) 局部剪枝方法:具体剪枝策略未知,但强调其有效性。2) 期望误差累积方法:用于评估超网络中不同稀疏结构的性能,具体实现未知。3) 迭代剪枝-搜索策略:采用由粗到精的稀疏粒度,以确保高效的搜索收敛,具体搜索算法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Týr-the-Pruner在Llama-3.1-70B模型上取得了显著的成果,在移除50%参数的情况下,仍能保持97%的原始性能。这一结果表明,该方法能够有效地压缩大型语言模型,同时保持较高的性能水平,优于现有的结构化剪枝方法。具体对比基线性能数据未知。

🎯 应用场景

Týr-the-Pruner具有广泛的应用前景,可用于在资源受限的设备上部署大型语言模型,例如移动设备、嵌入式系统等。通过降低模型的大小和计算复杂度,可以显著提高推理速度和降低功耗,从而使得LLM能够在更多场景下应用。此外,该方法还可以用于加速LLM的训练和微调过程。

📄 摘要(原文)

Structural pruning enhances hardware-agnostic inference efficiency for large language models (LLMs) yet often fails to maintain comparable performance. Local pruning performs efficient layer-by-layer compression but ignores global topology. Although global pruning aims to identify an optimal sparse model, intuitive methods typically adopt a two-stage paradigm that first evaluates substructure saliency and then applies global pruning, which ignores inter-structure dependencies and fails to achieve end-to-end optimization. To address these limitations, we propose Týr-the-Pruner, an efficient end-to-end search-based global structural pruning framework. This framework constructs a supernet by repeatedly applying local pruning across a range of sparsity ratios to each layer in an LLM, with the core goal of determining the optimal sparsity distribution under a target overall sparsity ratio. Concretely, we introduce an effective local pruning and an expectation error accumulation approach to improve supernet construction. Furthermore, we employ an iterative prune-and-search strategy with coarse-to-fine sparsity granularity to ensure efficient search convergence. Experimental results show that Týr-the-Pruner achieves state-of-the-art structural pruning, retaining 97% of the dense model's performance while removing a challenging 50% of Llama-3.1-70B's parameters. Code will be available at https://github.com/AMD-AGI/Tyr-the-Pruner.