Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing

📄 arXiv: 2501.16337v1 📥 PDF

作者: Ivan Knunyants, Maryam Tavakol, Manolis Sifalakis, Yingfu Xu, Amirreza Yousefzadeh, Guangzhi Tang

分类: cs.NE, cs.AI, cs.AR, cs.LG

发布日期: 2025-01-09

备注: Accepted by AICAS 2025


💡 一句话要点

提出一种免训练激活稀疏化算法,提升循环LLM在神经形态硬件上的能效

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 循环LLM 激活稀疏化 神经形态计算 边缘计算 免训练算法

📋 核心要点

  1. 现有LLM在边缘设备部署时面临能效和延迟的挑战,尤其是在计算复杂度高的自注意力机制上。
  2. 提出一种免训练的激活稀疏化算法,利用R-LLM的固有结构,降低计算需求,提升能效。
  3. 实验表明,该方法在保持竞争力的准确性前提下,显著降低计算需求,并在神经形态硬件上节省能源、改善延迟。

📝 摘要(中文)

大型语言模型(LLM)的兴起推动了深度学习领域的发展。然而,在边缘设备上部署LLM面临着能效和延迟挑战。循环LLM(R-LLM)架构已被证明能有效缓解自注意力机制的二次复杂度,使其成为边缘神经形态处理器计算的潜在范例。本文提出了一种低成本、免训练的算法来稀疏化R-LLM的激活,从而提高神经形态硬件上的能效。该方法利用了这些模型的固有结构,使其非常适合能量受限的环境。虽然主要针对R-LLM设计,但该方法可以推广到其他LLM架构,例如Transformer,并在OPT模型上进行了验证,实现了相当的稀疏性和效率提升。实证研究表明,该方法显著降低了计算需求,同时在多个零样本学习基准上保持了具有竞争力的准确性。此外,使用SENECA神经形态处理器的硬件仿真结果表明,该方法显著节省了能源并改善了延迟。这些结果为低功耗、实时神经形态部署LLM铺平了道路,并证明了使用激活稀疏性进行免训练片上自适应的可行性。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在边缘设备上的部署面临着巨大的能效挑战,尤其是在循环LLM(R-LLM)中,如何降低计算复杂度,实现低功耗部署是关键问题。现有的模型压缩方法通常需要额外的训练或微调,增加了计算成本和部署难度。

核心思路:本文的核心思路是通过激活稀疏化来降低R-LLM的计算量,从而提高能效。通过在推理过程中选择性地激活神经元,减少不必要的计算,达到降低功耗的目的。该方法无需重新训练模型,降低了部署成本。

技术框架:该方法主要包含以下几个阶段:1)前向传播:R-LLM接收输入并进行前向传播,计算每个神经元的激活值。2)稀疏化:根据预定义的策略(例如,基于激活值的阈值),选择性地激活神经元,将一部分神经元的激活值置为零。3)计算:仅对激活的神经元进行计算,从而减少计算量。4)输出:输出最终结果。该框架可以很容易地集成到现有的R-LLM架构中。

关键创新:该方法最重要的创新点在于提出了一种免训练的激活稀疏化算法。与传统的模型压缩方法不同,该方法不需要额外的训练或微调,可以直接应用于预训练的R-LLM模型。这种免训练的特性大大降低了部署成本和难度,使其更适合于边缘设备。

关键设计:关键设计包括:1)激活阈值的选择:阈值决定了稀疏化的程度,需要根据具体的模型和任务进行调整。2)稀疏化策略:可以选择不同的稀疏化策略,例如基于激活值的绝对值、相对值或百分比等。3)硬件加速:利用神经形态硬件的特性,进一步提高能效和降低延迟。例如,SENECA神经形态处理器可以有效地处理稀疏化的激活,从而实现更高的能效。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在多个零样本学习基准上保持了具有竞争力的准确性,同时显著降低了计算需求。使用SENECA神经形态处理器的硬件仿真结果表明,该方法显著节省了能源并改善了延迟。具体数据未知,但强调了在能效和延迟方面的显著提升。

🎯 应用场景

该研究成果可应用于各种边缘设备上的自然语言处理任务,例如智能手机、可穿戴设备和物联网设备。通过降低LLM的功耗,可以延长设备的电池寿命,并实现更快的响应速度。此外,该方法还可以应用于其他计算密集型任务,例如图像识别和语音识别,从而推动边缘计算的发展。

📄 摘要(原文)

The recent rise of Large Language Models (LLMs) has revolutionized the deep learning field. However, the desire to deploy LLMs on edge devices introduces energy efficiency and latency challenges. Recurrent LLM (R-LLM) architectures have proven effective in mitigating the quadratic complexity of self-attention, making them a potential paradigm for computing on-edge neuromorphic processors. In this work, we propose a low-cost, training-free algorithm to sparsify R-LLMs' activations to enhance energy efficiency on neuromorphic hardware. Our approach capitalizes on the inherent structure of these models, rendering them well-suited for energy-constrained environments. Although primarily designed for R-LLMs, this method can be generalized to other LLM architectures, such as transformers, as demonstrated on the OPT model, achieving comparable sparsity and efficiency improvements. Empirical studies illustrate that our method significantly reduces computational demands while maintaining competitive accuracy across multiple zero-shot learning benchmarks. Additionally, hardware simulations with the SENECA neuromorphic processor underscore notable energy savings and latency improvements. These results pave the way for low-power, real-time neuromorphic deployment of LLMs and demonstrate the feasibility of training-free on-chip adaptation using activation sparsity.