CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

📄 arXiv: 2409.01366v2 📥 PDF

作者: Junhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-02 (更新: 2024-12-27)


💡 一句话要点

CHESS:通过通道阈值和选择性稀疏化优化LLM推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型推理 激活稀疏化 通道阈值 选择性稀疏化

📋 核心要点

  1. 现有激活稀疏化方法未充分建模稀疏化对模型性能的影响,导致性能下降。
  2. CHESS通过通道阈值和选择性稀疏化,显式捕捉激活稀疏性与模型性能的关系。
  3. 实验表明,CHESS在降低性能损失的同时,加速LLM推理高达1.27倍。

📝 摘要(中文)

由于巨大的计算开销和内存需求,在大规模语言模型(LLM)在边缘设备上的部署面临着严峻的挑战。激活稀疏化可以通过减少推理期间激活神经元的数量来缓解这些资源挑战。现有的方法通常采用基于激活张量统计的阈值稀疏化。然而,它们没有对激活稀疏化对性能的影响进行建模,导致次优的性能下降。为了解决这些局限性,本文将激活稀疏化问题重新定义为显式地捕捉激活稀疏性和模型性能之间的关系。然后,本文提出了一种通用的激活稀疏化方法CHESS,它通过通道阈值和选择性稀疏化来实现。首先,通道阈值为前馈网络(FFN)层中的每个激活通道分配一个唯一的阈值。然后,选择性稀疏化包括将基于阈值的激活稀疏化应用于注意力模块中的特定层。最后,我们详细介绍了稀疏内核的实现,以加速LLM推理。实验结果表明,与现有方法相比,所提出的CHESS在激活更少参数的同时,在八个下游任务上实现了更低的性能下降,从而将LLM推理速度提高了高达1.27倍。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在边缘设备部署时,面临着计算资源和内存资源的巨大挑战。激活稀疏化是一种有效的降低资源消耗的方法,但现有方法通常基于激活张量的统计信息进行阈值处理,忽略了稀疏化对模型性能的直接影响,导致性能下降,无法达到最优的稀疏化效果。

核心思路:CHESS的核心思路是将激活稀疏化问题重新建模,显式地建立激活稀疏度和模型性能之间的关系。通过这种方式,CHESS能够更精确地控制稀疏化过程,在保证模型性能的前提下,最大程度地减少计算量和内存占用。

技术框架:CHESS主要包含两个关键模块:通道阈值(Channel-wise Thresholding)和选择性稀疏化(Selective Sparsification)。通道阈值模块为前馈网络(FFN)层的每个激活通道分配一个独立的阈值,从而实现更细粒度的稀疏化控制。选择性稀疏化模块则是在注意力模块中的特定层应用基于阈值的激活稀疏化。此外,论文还详细描述了稀疏内核的实现,用于加速LLM推理。

关键创新:CHESS的关键创新在于其显式地建模了激活稀疏度和模型性能之间的关系,并基于此提出了通道阈值和选择性稀疏化策略。与现有方法相比,CHESS能够更有效地平衡稀疏化带来的性能损失和计算收益。

关键设计:通道阈值模块为每个激活通道分配一个独立的阈值,阈值的具体数值由训练数据决定,旨在保留对模型性能影响较大的通道,而去除影响较小的通道。选择性稀疏化模块则根据不同层的特性,选择性地应用稀疏化,避免对关键层造成过大的性能损失。此外,论文还针对稀疏矩阵的运算,设计了高效的稀疏内核,以加速推理过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CHESS在八个下游任务上实现了优于现有方法的性能。具体而言,CHESS在激活更少参数的情况下,实现了更低的性能下降,并且将LLM推理速度提高了高达1.27倍。这些结果证明了CHESS在优化LLM推理方面的有效性。

🎯 应用场景

CHESS具有广泛的应用前景,尤其适用于资源受限的边缘设备,如移动设备、嵌入式系统和物联网设备。通过CHESS,可以在这些设备上部署更大规模的LLM,从而实现更智能的应用,例如本地化的自然语言处理、智能助手和实时翻译等。该研究有助于推动LLM在边缘计算领域的普及和应用。

📄 摘要(原文)

Deploying large language models (LLMs) on edge devices presents significant challenges due to the substantial computational overhead and memory requirements. Activation sparsification can mitigate these resource challenges by reducing the number of activated neurons during inference. Existing methods typically employ thresholding-based sparsification based on the statistics of activation tensors. However, they do not model the impact of activation sparsification on performance, resulting in suboptimal performance degradation. To address the limitations, this paper reformulates the activation sparsification problem to explicitly capture the relationship between activation sparsity and model performance. Then, this paper proposes CHESS, a general activation sparsification approach via CHannel-wise thrEsholding and Selective Sparsification. First, channel-wise thresholding assigns a unique threshold to each activation channel in the feed-forward network (FFN) layers. Then, selective sparsification involves applying thresholding-based activation sparsification to specific layers within the attention modules. Finally, we detail the implementation of sparse kernels to accelerate LLM inference. Experimental results demonstrate that the proposed CHESS achieves lower performance degradation over eight downstream tasks while activating fewer parameters than existing methods, thus speeding up the LLM inference by up to 1.27x.