R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference

📄 arXiv: 2504.19449v1 📥 PDF

作者: Zhenyu Zhang, Zechun Liu, Yuandong Tian, Harshit Khaitan, Zhangyang Wang, Steven Li

分类: cs.LG

发布日期: 2025-04-28

备注: ICLR 2025


💡 一句话要点

R-Sparse:一种免训练的激活稀疏化方法,用于高效LLM推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活稀疏化 免训练 高效推理 奇异值分解

📋 核心要点

  1. 现有激活稀疏化方法难以应用于非ReLU激活函数的LLM,且通常需要大量持续训练,限制了其在先进模型上的应用。
  2. R-Sparse通过利用输入通道和奇异值分量的稀疏性,提出了一种免训练的秩感知稀疏推理方法,无需预测活跃通道。
  3. 实验表明,R-Sparse在Llama-2/3和Mistral模型上实现了50%的模型级稀疏度,并获得了43%的端到端效率提升。

📝 摘要(中文)

大型语言模型(LLMs)在各种应用中表现出卓越的能力,但由于其庞大的模型规模,在推理过程中面临着巨大的挑战,尤其是在边缘设备上部署时。激活稀疏性提供了一种有希望的解决方案,可以减少计算和内存移动,从而实现更高效的推理,特别是在小批量片上应用中。然而,目前的方法面临着非ReLU激活函数的限制,这些函数是大多数先进LLM的基础,或者需要大量的持续训练。此外,预测活跃通道的难度和有限的可实现的稀疏率限制了基于激活稀疏性的方法的有效性。在本文中,我们介绍了一种免训练的激活稀疏方法R-Sparse,它能够在先进的LLM中实现高稀疏度。我们对单个线性层中不同组件如何影响输出进行了两项初步研究,并发现了两个关键观察结果:(i)输入函数的非稀疏分量可以被视为一些偏置项,以及(ii)完整的计算可以通过输入通道和权重奇异值的适当组合来有效地近似。在此基础上,我们用一种利用输入通道和奇异值分量的稀疏性的秩感知稀疏推理方法取代了LLM中的线性层,从而消除了像基于输出稀疏性的方法那样对活跃通道预测的需求。在Llama-2/3和Mistral模型上进行的跨越十个不同任务的实验表明,R-Sparse在50%模型级稀疏度下实现了可比的性能,通过定制内核实现了显著的43%端到端效率提升。

🔬 方法详解

问题定义:现有激活稀疏化方法在应用于使用非ReLU激活函数(如SwiGLU)的先进LLM时效果不佳,因为这些方法通常依赖于ReLU的特性。此外,许多激活稀疏化方法需要大量的持续训练才能达到理想的性能,这增加了计算成本和部署难度。预测激活通道的困难以及可实现的稀疏率限制也阻碍了现有方法的有效性。

核心思路:R-Sparse的核心思路是利用线性层中输入通道和权重奇异值的稀疏性,通过秩感知的方式进行稀疏推理。该方法基于两个关键观察:一是输入函数的非稀疏分量可以被视为偏置项;二是线性层的计算可以通过输入通道和权重奇异值的组合来近似。通过这种方式,R-Sparse避免了对激活通道的显式预测,从而简化了稀疏化过程。

技术框架:R-Sparse方法主要包括以下几个步骤:首先,对LLM中的线性层进行分解,提取权重矩阵的奇异值。然后,利用输入通道的稀疏性,选择重要的输入通道进行计算。同时,利用奇异值的特性,选择重要的奇异值分量进行近似。最后,将选择的输入通道和奇异值分量组合起来,进行稀疏推理。整个过程无需额外的训练。

关键创新:R-Sparse的关键创新在于提出了一种免训练的激活稀疏化方法,该方法不需要对模型进行额外的训练或微调。此外,R-Sparse通过利用输入通道和奇异值的稀疏性,避免了对激活通道的显式预测,从而简化了稀疏化过程,并提高了稀疏化的效率。

关键设计:R-Sparse的关键设计包括:(1) 线性层的奇异值分解,用于提取权重矩阵的奇异值分量;(2) 基于输入通道稀疏性的通道选择机制,用于选择重要的输入通道;(3) 基于奇异值重要性的分量选择机制,用于选择重要的奇异值分量;(4) 定制的稀疏推理内核,用于高效地执行稀疏矩阵乘法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R-Sparse在Llama-2/3和Mistral模型上实现了与密集模型相当的性能,同时达到了50%的模型级稀疏度。通过定制内核,R-Sparse实现了43%的端到端效率提升。这些结果表明,R-Sparse是一种有效的激活稀疏化方法,可以显著提高LLM推理的效率。

🎯 应用场景

R-Sparse具有广泛的应用前景,尤其是在资源受限的边缘设备上部署大型语言模型。通过降低计算和内存需求,R-Sparse可以使LLM在移动设备、嵌入式系统等平台上运行,从而实现更智能的本地化应用,例如离线翻译、智能助手和个性化推荐等。该方法还可以应用于云计算环境,以降低LLM推理的成本和延迟。

📄 摘要(原文)

Large Language Models (LLMs), while demonstrating remarkable capabilities across various applications, present significant challenges during inference due to their substantial model size, especially when deployed on edge devices. Activation sparsity offers a promising solution to reduce computation and memory movement, enabling more efficient inference, particularly for small-batch on-device applications. However, current approaches face limitations with non-ReLU activation function, which are foundational to most advanced LLMs, or require heavy continual training. Additionally, the difficulty in predicting active channels and limited achievable sparsity ratios constrain the effectiveness of activation sparsity-based methods. In this paper, we introduce R-Sparse, a training-free activation sparsity approach capable of achieving high sparsity levels in advanced LLMs. We conducted two preliminary investigations into how different components contribute to the output within a single linear layer and found two key observations: (i) the non-sparse components of the input function can be regarded as a few bias terms, and (ii) The full computation can be effectively approximated by an appropriate combination of input channels and weight singular values. Building on this, we replace the linear layers in LLMs with a rank-aware sparse inference method that leverages the sparsity of input channels and singular value components, eliminating the need for active channel prediction like the output sparsity based approaches. Experiments on Llama-2/3 and Mistral models across ten diverse tasks demonstrate that R-Sparse achieves comparable performance at 50% model-level sparsity, resulting in a significant 43% end-to-end efficient improvements with customized kernels.