Sparser, Faster, Lighter Transformer Language Models

📄 arXiv: 2603.23198v1 📥 PDF

作者: Edoardo Cetin, Stefano Peluchetti, Emilio Castillo, Akira Naruse, Mana Murakami, Llion Jones

分类: cs.LG, cs.CL

发布日期: 2026-03-24

备注: Code and checkpoints available at: https://github.com/SakanaAI/sparser-faster-llms


💡 一句话要点

提出稀疏Transformer语言模型,提升推理和训练效率并降低资源消耗

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏性 大型语言模型 CUDA内核 L1正则化 模型优化 推理加速 能源效率

📋 核心要点

  1. 现有大型语言模型计算成本巨大,限制了其应用和发展。
  2. 利用前馈层中的非结构化稀疏性,结合新的稀疏打包格式和CUDA内核,实现高效稀疏计算。
  3. 实验表明,L1正则化可实现超过99%的稀疏性,且对性能影响小,显著提升吞吐量和能源效率。

📝 摘要(中文)

本文针对大型自回归语言模型(LLM)计算成本高昂的问题,利用LLM前馈层中的非结构化稀疏性来降低成本,前馈层占据了模型参数和执行FLOPs的大部分。为此,我们引入了一种新的稀疏打包格式和一组CUDA内核,旨在与现代GPU的优化执行流程无缝集成,从而在LLM推理和训练期间实现高效的稀疏计算。为了证实我们的收益,我们对LLM稀疏性进行了定量研究,表明简单的L1正则化可以诱导超过99%的稀疏性,而对下游性能的影响可以忽略不计。当与我们的内核结合使用时,我们表明这些稀疏性水平可以转化为显著的吞吐量、能源效率和内存使用优势,并且随着模型规模的增加而增加。我们将以开源许可证发布所有代码和内核,以促进采用并加速研究,从而将稀疏性确立为提高现代基础模型效率和可扩展性的实用途径。

🔬 方法详解

问题定义:大型语言模型(LLM)的训练和推理需要巨大的计算资源,这限制了其应用范围和可扩展性。现有方法难以在保证模型性能的同时,有效降低计算成本和内存占用。前馈网络层占据了LLM的大部分参数和计算量,因此是优化的关键。

核心思路:本文的核心思路是利用LLM前馈层中的非结构化稀疏性。通过引入稀疏性,可以减少需要计算的参数数量,从而降低计算成本和内存占用。同时,设计专门的稀疏计算内核,以高效利用GPU的计算资源。

技术框架:该方法主要包含以下几个关键模块:1) 稀疏性诱导:使用L1正则化等方法,在训练过程中诱导模型产生稀疏性。2) 稀疏打包格式:设计一种新的稀疏数据存储格式,以高效存储稀疏矩阵,并方便GPU进行计算。3) CUDA内核:开发针对稀疏矩阵计算优化的CUDA内核,以充分利用GPU的并行计算能力。4) 集成:将上述模块集成到现有的LLM训练和推理流程中。

关键创新:该方法最重要的创新点在于:1) 提出了一种新的稀疏打包格式,能够高效地存储和访问稀疏矩阵。2) 开发了一组针对稀疏矩阵计算优化的CUDA内核,能够充分利用GPU的计算资源。3) 结合L1正则化,能够在保证模型性能的同时,实现极高的稀疏度。

关键设计:1) 稀疏度控制:通过调整L1正则化的系数,可以控制模型的稀疏度。2) 稀疏打包格式:该格式需要考虑存储效率和计算效率,需要在两者之间进行权衡。3) CUDA内核:需要针对不同的稀疏模式和计算类型进行优化,以达到最佳性能。4) 损失函数:在原始损失函数的基础上,添加L1正则化项,以诱导模型产生稀疏性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过简单的L1正则化,可以使LLM达到超过99%的稀疏度,而对下游任务的性能影响很小。结合提出的稀疏打包格式和CUDA内核,可以显著提高LLM的吞吐量和能源效率,并降低内存占用。这些优势随着模型规模的增加而更加明显。

🎯 应用场景

该研究成果可广泛应用于各种需要大规模语言模型的场景,例如自然语言处理、机器翻译、文本生成、对话系统等。通过降低计算成本和内存占用,可以使LLM在资源受限的设备上运行,并加速LLM的训练和推理过程,从而推动人工智能技术的发展。

📄 摘要(原文)

Scaling autoregressive large language models (LLMs) has driven unprecedented progress but comes with vast computational costs. In this work, we tackle these costs by leveraging unstructured sparsity within an LLM's feedforward layers, the components accounting for most of the model parameters and execution FLOPs. To achieve this, we introduce a new sparse packing format and a set of CUDA kernels designed to seamlessly integrate with the optimized execution pipelines of modern GPUs, enabling efficient sparse computation during LLM inference and training. To substantiate our gains, we provide a quantitative study of LLM sparsity, demonstrating that simple L1 regularization can induce over 99% sparsity with negligible impact on downstream performance. When paired with our kernels, we show that these sparsity levels translate into substantial throughput, energy efficiency, and memory usage benefits that increase with model scale. We will release all code and kernels under an open-source license to promote adoption and accelerate research toward establishing sparsity as a practical axis for improving the efficiency and scalability of modern foundation models.