PATCH: Learnable Tile-level Hybrid Sparsity for LLMs
作者: Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi
分类: cs.LG, cs.AI, cs.PF
发布日期: 2025-09-27 (更新: 2025-12-22)
💡 一句话要点
PATCH:面向LLM的可学习瓦片级混合稀疏框架,实现精度与加速的平衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型剪枝 稀疏性 混合稀疏 GPU加速 可学习掩码 瓦片级稀疏
📋 核心要点
- 现有剪枝方法在LLM上存在精度和加速的trade-off问题,非结构化稀疏精度高但加速难,2:4稀疏加速友好但精度损失大。
- PATCH通过可学习的瓦片级掩码选择机制,实现混合稀疏,在每个瓦片上选择密集或2:4稀疏,从而灵活控制稀疏率。
- 实验表明,PATCH在多个模型上缩小了与密集模型精度差距,并在LLaMA-2 7B上实现了1.18x-1.38x的端到端加速,精度优于MaskLLM。
📝 摘要(中文)
大型语言模型(LLMs)性能卓越,但部署时面临巨大的内存和计算成本。模型剪枝是降低这些开销的有效方法,但现有方法面临挑战:非结构化稀疏性虽然能保持精度,但会产生不规则的访问模式,阻碍GPU加速;而半结构化的2:4稀疏性虽然对硬件友好,但强制执行50%的固定模式,会降低模型质量。为了弥合这一差距,我们提出了PATCH,一种混合稀疏框架,它支持0%到50%之间的连续稀疏率。PATCH将权重矩阵划分为瓦片,并通过可学习的掩码选择机制,将每个瓦片指定为密集或2:4稀疏。这种设计提供了对精度-加速权衡的细粒度控制,并支持跨层非均匀稀疏性,从而带来卓越的整体质量。在0.5B到8B参数的模型上,PATCH始终缩小了与密集模型精度之间的差距,同时实现了实际的加速。例如,在配备A6000 GPU的LLaMA-2 7B模型上,PATCH实现了比密集基线1.18倍-1.38倍的端到端加速,同时相比最先进的2:4剪枝方法MaskLLM,精度提高了0.37%-2.96%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)部署时内存和计算成本过高的问题。现有的模型剪枝方法,如非结构化稀疏和2:4稀疏,分别存在GPU加速困难和精度损失大的痛点,无法在精度和加速之间取得良好平衡。
核心思路:论文的核心思路是引入一种混合稀疏框架PATCH,它将权重矩阵划分为瓦片,并为每个瓦片选择性地应用密集或2:4稀疏。这种设计允许模型在不同层或不同区域采用不同的稀疏策略,从而实现更细粒度的精度-加速权衡。通过可学习的掩码选择机制,模型可以自动学习最优的稀疏模式。
技术框架:PATCH框架主要包含以下几个步骤:1. 将权重矩阵划分为大小相等的瓦片。2. 为每个瓦片生成一个可学习的掩码,用于指示该瓦片应采用密集还是2:4稀疏。3. 根据掩码对瓦片进行稀疏化处理。4. 在训练过程中,同时优化模型权重和掩码,以实现最佳的精度和加速效果。
关键创新:PATCH的关键创新在于其混合稀疏策略和可学习的掩码选择机制。与传统的固定稀疏模式相比,PATCH能够根据模型的实际需求自适应地调整稀疏模式,从而在保证精度的前提下实现更高的加速效果。此外,瓦片级的稀疏粒度也提供了更灵活的控制,允许模型在不同层或不同区域采用不同的稀疏策略。
关键设计:PATCH的关键设计包括:1. 瓦片大小的选择:需要根据硬件特性和模型大小进行调整,以平衡稀疏性和加速效果。2. 掩码的初始化和更新策略:可以使用不同的初始化方法和优化算法来训练掩码,以获得最佳的稀疏模式。3. 损失函数的设计:除了传统的交叉熵损失外,还可以引入正则化项来约束掩码的稀疏性,以进一步提高加速效果。
🖼️ 关键图片
📊 实验亮点
PATCH在LLaMA-2 7B模型上取得了显著的实验成果。在配备A6000 GPU的条件下,PATCH实现了比密集基线1.18倍-1.38倍的端到端加速,同时相比最先进的2:4剪枝方法MaskLLM,精度提高了0.37%-2.96%。这些结果表明,PATCH能够有效地平衡精度和加速,为LLM的部署提供了更优的解决方案。
🎯 应用场景
PATCH框架可应用于各种大型语言模型的压缩和加速,尤其适用于资源受限的边缘设备或需要低延迟响应的场景。通过自适应地调整稀疏模式,PATCH能够在保证模型性能的同时显著降低计算和存储成本,从而推动LLM在更广泛的应用领域落地。
📄 摘要(原文)
Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges: unstructured sparsity, where nonzeros can appear anywhere, preserves accuracy but yields irregular access patterns that prevent GPU acceleration, while semi-structured 2:4 sparsity is hardware-friendly but enforces a rigid 50% pattern that degrades model quality. To bridge this gap, we introduce PATCH, a hybrid sparsity framework that enables a continuous sparsity ratio between 0% and 50%. PATCH partitions weight matrices into tiles, assigning each tile to be either dense or 2:4 sparse via a learnable mask selection mechanism. This design provides fine-grained control over accuracy-acceleration tradeoffs and supports non-uniform sparsity across layers, leading to superior overall quality. Across models from 0.5B to 8B parameters, PATCH consistently narrows the gap to dense accuracy while delivering practical speedups. For instance, on LLaMA-2 7B with an A6000 GPU, PATCH achieves 1.18x-1.38x end-to-end speedup over dense baselines while improving accuracy by 0.37%-2.96% compared to the state-of-the-art 2:4 pruning method, MaskLLM.