BrainTransformers: SNN-LLM

📄 arXiv: 2410.14687v2 📥 PDF

作者: Zhengzheng Tang, Eva Zhu

分类: cs.NE, cs.CL, cs.LG

发布日期: 2024-10-03 (更新: 2024-10-23)


💡 一句话要点

BrainTransformers:基于脉冲神经网络的大语言模型,提升能效与生物合理性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脉冲神经网络 大语言模型 神经形态计算 Transformer 低功耗 生物合理性

📋 核心要点

  1. 现有大语言模型能耗高昂,缺乏生物学上的合理性,限制了其在资源受限环境中的应用。
  2. BrainTransformers 采用脉冲神经网络(SNN)构建 LLM,模拟生物神经元的工作方式,旨在降低能耗并提高生物合理性。
  3. BrainTransformers-3B-Chat 在多个 NLP 基准测试中取得了具有竞争力的结果,验证了 SNN-LLM 的可行性。

📝 摘要(中文)

本研究提出了BrainTransformers,一种使用脉冲神经网络(SNN)实现的大语言模型(LLM)。主要贡献包括:(1)设计了SNN兼容的Transformer组件,如SNNMatmul、SNNSoftmax和SNNSiLU;(2)实现了SiLU激活函数的SNN近似;(3)开发了Synapsis模块来模拟突触可塑性。我们拥有30亿参数的模型BrainTransformers-3B-Chat在多个基准测试中表现出竞争力的性能,包括MMLU(63.2)、BBH(54.1)、ARC-C(54.3)和GSM8K(76.3),同时可能提供更高的能源效率和生物合理性。该模型采用三阶段训练方法,包括SNN特定的神经元突触可塑性训练。这项研究为自然语言处理和神经形态计算中类脑人工智能系统开辟了新途径。未来的工作将侧重于硬件优化,开发专门的SNN微调工具,并探索在节能计算环境中的实际应用。

🔬 方法详解

问题定义:现有的大语言模型(LLM)通常基于深度神经网络(DNN),计算复杂度高,能耗巨大,并且缺乏生物学上的合理性。这限制了它们在边缘设备和需要低功耗的应用场景中的部署。因此,需要一种更节能、更生物友好的LLM实现方式。

核心思路:本论文的核心思路是利用脉冲神经网络(SNN)来构建LLM。SNN通过模拟生物神经元的脉冲发放机制,具有事件驱动的特性,理论上可以显著降低计算功耗。同时,SNN的结构和工作方式更接近于生物大脑,具有更高的生物合理性。

技术框架:BrainTransformers的整体架构基于Transformer模型,但其中的关键组件被替换为SNN兼容的版本。主要包括以下几个模块:1) SNNMatmul:SNN版本的矩阵乘法;2) SNNSoftmax:SNN版本的Softmax函数;3) SNNSiLU:SiLU激活函数的SNN近似;4) Synapsis模块:模拟突触可塑性。模型训练分为三个阶段,包括SNN特定的神经元突触可塑性训练。

关键创新:该论文的关键创新在于将Transformer架构与SNN相结合,并设计了SNN兼容的Transformer组件。通过SNN的脉冲发放机制,有望实现更低的功耗和更高的生物合理性。此外,Synapsis模块的引入进一步模拟了生物神经元的突触可塑性,增强了模型的学习能力。

关键设计:SNNSiLU激活函数是关键设计之一,它需要近似SiLU函数在SNN中的行为。Synapsis模块的具体实现细节(例如,突触可塑性的更新规则)也是重要的设计选择。模型训练采用三阶段方法,需要仔细调整各个阶段的训练参数和学习率,以保证模型的收敛性和性能。

📊 实验亮点

BrainTransformers-3B-Chat模型在MMLU(63.2)、BBH(54.1)、ARC-C(54.3)和GSM8K(76.3)等多个基准测试中取得了具有竞争力的性能。这些结果表明,基于SNN的LLM在自然语言处理任务中具有可行性,并且有望在能效方面超越传统的DNN模型。

🎯 应用场景

BrainTransformers 有潜力应用于各种需要低功耗和高生物合理性的场景,例如边缘计算设备、可穿戴设备、医疗诊断和神经形态计算等。该研究为开发更节能、更智能的AI系统开辟了新的方向,并可能促进类脑计算领域的发展。

📄 摘要(原文)

This study introduces BrainTransformers, an innovative Large Language Model (LLM) implemented using Spiking Neural Networks (SNN). Our key contributions include: (1) designing SNN-compatible Transformer components such as SNNMatmul, SNNSoftmax, and SNNSiLU; (2) implementing an SNN approximation of the SiLU activation function; and (3) developing a Synapsis module to simulate synaptic plasticity. Our 3-billion parameter model, BrainTransformers-3B-Chat, demonstrates competitive performance across various benchmarks, including MMLU (63.2), BBH (54.1), ARC-C (54.3), and GSM8K (76.3), while potentially offering improved energy efficiency and biological plausibility. The model employs a three-stage training approach, including SNN-specific neuronal synaptic plasticity training. This research opens new avenues for brain-like AI systems in natural language processing and neuromorphic computing. Future work will focus on hardware optimization, developing specialized SNN fine-tuning tools, and exploring practical applications in energy-efficient computing environments.