Training-Free Activation Sparsity in Large Language Models

作者: James Liu, Pragaash Ponnusamy, Tianle Cai, Han Guo, Yoon Kim, Ben Athiwaratkun

分类: cs.CL, cs.AI

发布日期: 2024-08-26 (更新: 2025-02-25)

备注: Rev. 2: ICLR 2025 Acceptance (Spotlight)

💡 一句话要点

提出TEAL：一种免训练的大语言模型激活稀疏化方法，提升推理速度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活稀疏化 免训练 推理加速 模型压缩

📋 核心要点

现有激活稀疏化方法或依赖特定模型结构，或需要大量预训练，限制了其通用性和易用性。
TEAL通过简单地对隐藏层激活值进行幅度裁剪，实现免训练的激活稀疏化，无需额外训练开销。
实验表明，TEAL在多种LLM上实现了显著的稀疏化比例，同时保持了性能，并加速了推理过程。

📝 摘要（中文）

激活稀疏性通过减少前向传播期间矩阵乘法所需的计算和内存移动，能够显著提升大型语言模型（LLM）的推理速度。然而，现有方法存在局限性，阻碍了其广泛应用。一些方法专为基于ReLU的旧模型设计，而另一些方法则需要在数千亿token上进行大量的持续预训练。本文介绍了一种简单的免训练方法TEAL，它将基于幅度的激活稀疏性应用于整个模型的隐藏状态。TEAL在Llama-2、Llama-3和Mistral系列（规模从7B到70B）上实现了40-50%的模型范围稀疏性，且性能下降极小。我们改进了现有的稀疏内核，并在40%和50%模型范围稀疏性下，实现了高达1.53倍和1.8倍的实际解码加速。TEAL与权重量化兼容，从而能够进一步提高效率。

🔬 方法详解

问题定义：现有的大型语言模型激活稀疏化方法存在局限性。一些方法依赖于特定的激活函数（如ReLU），无法应用于所有模型。另一些方法需要大量的持续预训练，成本高昂且耗时。因此，需要一种通用的、免训练的激活稀疏化方法，以降低LLM的推理成本。

核心思路：TEAL的核心思路是基于激活值的幅度进行稀疏化。具体来说，对于每个隐藏层的激活值，只保留幅度最大的部分，其余部分置零。这种方法简单有效，无需额外的训练或模型修改，即可实现激活稀疏化。

技术框架：TEAL方法直接应用于LLM的每个隐藏层。在前向传播过程中，对于每个隐藏层的激活值，计算其幅度，并根据预设的稀疏度阈值，将幅度较小的激活值置零。整个过程无需修改模型结构或训练流程，可以方便地集成到现有的LLM推理框架中。

关键创新：TEAL的关键创新在于其免训练的特性。与需要大量预训练的稀疏化方法不同，TEAL可以直接应用于预训练好的LLM，无需额外的训练开销。此外，TEAL方法简单通用，可以应用于各种不同的LLM架构和激活函数。

关键设计：TEAL的关键设计在于稀疏度阈值的选择。稀疏度阈值决定了激活值的稀疏程度，需要根据具体的模型和任务进行调整。论文中可能采用了启发式方法或实验搜索来确定最佳的稀疏度阈值。此外，TEAL还兼容权重量化，可以进一步提高效率。

🖼️ 关键图片

📊 实验亮点

TEAL在Llama-2、Llama-3和Mistral等多个LLM上实现了40-50%的模型范围稀疏性，且性能下降极小。在40%和50%稀疏度下，解码速度分别提升了1.53倍和1.8倍。TEAL还与权重量化兼容，可以进一步提升效率。

🎯 应用场景

TEAL可广泛应用于各种需要加速LLM推理的场景，如移动设备上的本地部署、低延迟的在线服务以及资源受限的环境。通过降低计算和内存需求，TEAL使得LLM能够更高效地运行，从而扩展了LLM的应用范围。

📄 摘要（原文）

Activation sparsity can enable practical inference speedups in large language models (LLMs) by reducing the compute and memory-movement required for matrix multiplications during the forward pass. However, existing methods face limitations that inhibit widespread adoption. Some approaches are tailored towards older models with ReLU-based sparsity, while others require extensive continued pre-training on up to hundreds of billions of tokens. This paper describes TEAL, a simple training-free method that applies magnitude-based activation sparsity to hidden states throughout the entire model. TEAL achieves 40-50% model-wide sparsity with minimal performance degradation across Llama-2, Llama-3, and Mistral families, with sizes varying from 7B to 70B. We improve existing sparse kernels and demonstrate wall-clock decoding speed-ups of up to 1.53$\times$ and 1.8$\times$ at 40% and 50% model-wide sparsity. TEAL is compatible with weight quantization, enabling further efficiency gains.

Training-Free Activation Sparsity in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理