Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models

📄 arXiv: 2405.01943v3 📥 PDF

作者: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-03 (更新: 2024-10-20)


💡 一句话要点

提出依赖感知半结构化稀疏(DaSS)方法,用于压缩GLU变体LLM。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型压缩 剪枝 稀疏性 GLU变体 硬件加速 推理优化

📋 核心要点

  1. 大型语言模型体积庞大,对部署和推理的硬件资源提出了严峻挑战,需要有效的模型压缩方法。
  2. DaSS方法将结构依赖性融入到非结构化剪枝中,通过考虑权重幅度和激活范数来评估权重的重要性。
  3. 实验表明,DaSS在保持计算效率的同时,实现了硬件友好的N:M稀疏模式,优于现有剪枝方法。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展显著提升了语言理解和生成能力。然而,庞大的模型规模对硬件提出了挑战,影响了服务所需的内存大小和token生成的推理延迟。为了解决这些挑战,我们提出了一种新颖的GLU-based LLMs剪枝方法,即依赖感知半结构化稀疏(DaSS),它将结构依赖性融入到基于权重幅度的非结构化剪枝中。我们引入了一种MLP特定的剪枝指标,通过联合考虑每个权重的幅度和其对应的MLP中间激活范数来评估其重要性。DaSS促进了非结构化剪枝提供的适应性和基于依赖的结构化剪枝中固有的结构一致性之间的平衡。在LLaMA2、Mistral和Gemma模型系列上的实证评估表明,DaSS不仅在实现硬件友好的N:M稀疏模式方面优于SparseGPT和Wanda,而且保持了Wanda的计算效率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)体积过大带来的硬件部署和推理延迟问题。现有方法,如非结构化剪枝,虽然可以实现高压缩率,但缺乏结构性,导致硬件加速效率不高。而结构化剪枝虽然硬件友好,但灵活性较差,可能导致精度损失。因此,如何在保证硬件效率的同时,尽可能保留模型的表达能力是一个关键挑战。

核心思路:DaSS的核心思路是将结构依赖性融入到非结构化剪枝中,从而在两者之间取得平衡。具体来说,DaSS方法不仅考虑权重的幅度,还考虑其对应的MLP中间激活范数,从而更准确地评估权重的重要性。这种方法能够识别对模型性能影响较小的权重,并将其剪枝,同时保留重要的结构信息。

技术框架:DaSS方法主要包含以下几个步骤:1) 计算每个权重的幅度;2) 计算每个权重对应的MLP中间激活范数;3) 结合权重幅度和激活范数,计算每个权重的剪枝重要性得分;4) 根据剪枝比例,剪枝重要性得分较低的权重,形成N:M稀疏模式。整个过程在训练后进行,属于后训练量化(Post-Training Quantization)的范畴。

关键创新:DaSS的关键创新在于提出了一个MLP特定的剪枝指标,该指标综合考虑了权重的幅度和其对应的MLP中间激活范数。与传统的基于权重幅度的剪枝方法相比,DaSS能够更准确地评估权重的重要性,从而在保证硬件效率的同时,尽可能保留模型的表达能力。与结构化剪枝相比,DaSS具有更高的灵活性,能够适应不同的模型结构和任务。

关键设计:DaSS的关键设计包括:1) MLP中间激活范数的计算方法:论文具体描述了如何计算每个权重对应的MLP中间激活范数,这部分细节对于复现结果至关重要。2) 剪枝重要性得分的计算方法:论文需要明确说明如何将权重幅度和激活范数结合起来,得到最终的剪枝重要性得分。3) N:M稀疏模式的实现方法:论文需要说明如何根据剪枝比例和重要性得分,实现硬件友好的N:M稀疏模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在LLaMA2、Mistral和Gemma模型系列上的实验结果表明,DaSS方法在实现硬件友好的N:M稀疏模式方面优于SparseGPT和Wanda,同时保持了Wanda的计算效率。具体的性能提升数据(例如,在特定稀疏度下的精度损失)需要在论文中查找。

🎯 应用场景

DaSS方法可应用于各种基于GLU变体的LLM的压缩和加速,尤其适用于资源受限的边缘设备或需要低延迟推理的场景,例如移动设备上的智能助手、自动驾驶系统中的自然语言理解模块等。通过降低模型大小和推理延迟,DaSS有助于在更多场景中部署和应用LLM。

📄 摘要(原文)

The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent GLU-based LLMs pruning, which incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on LLaMA2, Mistral, and Gemma model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda.