Training-Free Activation Sparsity in Large Language Models

📄 arXiv: 2408.14690v3 📥 PDF

作者: James Liu, Pragaash Ponnusamy, Tianle Cai, Han Guo, Yoon Kim, Ben Athiwaratkun

分类: cs.CL, cs.AI

发布日期: 2024-08-26 (更新: 2025-02-25)

备注: Rev. 2: ICLR 2025 Acceptance (Spotlight)


💡 一句话要点

提出TEAL:一种免训练的大语言模型激活稀疏化方法,提升推理速度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活稀疏化 免训练 推理加速 模型压缩

📋 核心要点

  1. 现有激活稀疏化方法或依赖特定模型结构,或需要大量预训练,限制了其通用性和易用性。
  2. TEAL通过简单地对隐藏层激活值进行幅度裁剪,实现免训练的激活稀疏化,无需额外训练开销。
  3. 实验表明,TEAL在多种LLM上实现了显著的稀疏化比例,同时保持了性能,并加速了推理过程。

📝 摘要(中文)

激活稀疏性通过减少前向传播期间矩阵乘法所需的计算和内存移动,能够显著提升大型语言模型(LLM)的推理速度。然而,现有方法存在局限性,阻碍了其广泛应用。一些方法专为基于ReLU的旧模型设计,而另一些方法则需要在数千亿token上进行大量的持续预训练。本文介绍了一种简单的免训练方法TEAL,它将基于幅度的激活稀疏性应用于整个模型的隐藏状态。TEAL在Llama-2、Llama-3和Mistral系列(规模从7B到70B)上实现了40-50%的模型范围稀疏性,且性能下降极小。我们改进了现有的稀疏内核,并在40%和50%模型范围稀疏性下,实现了高达1.53倍和1.8倍的实际解码加速。TEAL与权重量化兼容,从而能够进一步提高效率。

🔬 方法详解

问题定义:现有的大型语言模型激活稀疏化方法存在局限性。一些方法依赖于特定的激活函数(如ReLU),无法应用于所有模型。另一些方法需要大量的持续预训练,成本高昂且耗时。因此,需要一种通用的、免训练的激活稀疏化方法,以降低LLM的推理成本。

核心思路:TEAL的核心思路是基于激活值的幅度进行稀疏化。具体来说,对于每个隐藏层的激活值,只保留幅度最大的部分,其余部分置零。这种方法简单有效,无需额外的训练或模型修改,即可实现激活稀疏化。

技术框架:TEAL方法直接应用于LLM的每个隐藏层。在前向传播过程中,对于每个隐藏层的激活值,计算其幅度,并根据预设的稀疏度阈值,将幅度较小的激活值置零。整个过程无需修改模型结构或训练流程,可以方便地集成到现有的LLM推理框架中。

关键创新:TEAL的关键创新在于其免训练的特性。与需要大量预训练的稀疏化方法不同,TEAL可以直接应用于预训练好的LLM,无需额外的训练开销。此外,TEAL方法简单通用,可以应用于各种不同的LLM架构和激活函数。

关键设计:TEAL的关键设计在于稀疏度阈值的选择。稀疏度阈值决定了激活值的稀疏程度,需要根据具体的模型和任务进行调整。论文中可能采用了启发式方法或实验搜索来确定最佳的稀疏度阈值。此外,TEAL还兼容权重量化,可以进一步提高效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TEAL在Llama-2、Llama-3和Mistral等多个LLM上实现了40-50%的模型范围稀疏性,且性能下降极小。在40%和50%稀疏度下,解码速度分别提升了1.53倍和1.8倍。TEAL还与权重量化兼容,可以进一步提升效率。

🎯 应用场景

TEAL可广泛应用于各种需要加速LLM推理的场景,如移动设备上的本地部署、低延迟的在线服务以及资源受限的环境。通过降低计算和内存需求,TEAL使得LLM能够更高效地运行,从而扩展了LLM的应用范围。

📄 摘要(原文)

Activation sparsity can enable practical inference speedups in large language models (LLMs) by reducing the compute and memory-movement required for matrix multiplications during the forward pass. However, existing methods face limitations that inhibit widespread adoption. Some approaches are tailored towards older models with ReLU-based sparsity, while others require extensive continued pre-training on up to hundreds of billions of tokens. This paper describes TEAL, a simple training-free method that applies magnitude-based activation sparsity to hidden states throughout the entire model. TEAL achieves 40-50% model-wide sparsity with minimal performance degradation across Llama-2, Llama-3, and Mistral families, with sizes varying from 7B to 70B. We improve existing sparse kernels and demonstrate wall-clock decoding speed-ups of up to 1.53$\times$ and 1.8$\times$ at 40% and 50% model-wide sparsity. TEAL is compatible with weight quantization, enabling further efficiency gains.