SpikingBrain: Spiking Brain-inspired Large Models

📄 arXiv: 2509.05276v3 📥 PDF

作者: Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Han Xu, Zehao Liu, Bohan Sun, Yuhong Chou, Xuerui Qiu, Anlin Deng, Anjie Hu, Shurong Wang, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-05 (更新: 2025-12-01)


💡 一句话要点

SpikingBrain:受脑启发的线性注意力大模型,提升长文本处理效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脉冲神经网络 线性注意力 长文本处理 大语言模型 非NVIDIA平台

📋 核心要点

  1. 现有Transformer模型在处理长文本时面临计算和内存瓶颈,限制了其应用。
  2. SpikingBrain通过线性注意力、脉冲神经元和专门的训练流程,构建高效长文本模型。
  3. SpikingBrain模型在长文本处理速度和能效上显著提升,并在非NVIDIA平台稳定训练。

📝 摘要(中文)

本文提出了SpikingBrain,一系列受脑启发的模型,旨在提高长文本训练和推理的效率。主流的基于Transformer的大语言模型面临效率瓶颈:训练计算量随序列长度呈平方增长,推理内存线性增长,限制了长上下文处理。同时,在非NVIDIA平台上构建大型模型也面临稳定高效训练的挑战。SpikingBrain利用MetaX GPU集群,关注三个方面:模型架构(具有自适应脉冲神经元的线性及混合线性注意力架构)、算法优化(高效的基于转换的训练流程和专用脉冲编码框架)和系统工程(定制的训练框架、算子库和针对MetaX硬件的并行策略)。基于这些技术,开发了SpikingBrain-7B(线性LLM)和SpikingBrain-76B(混合线性MoE LLM)。这些模型证明了在非NVIDIA平台上开发大规模LLM的可行性,并在数百个MetaX GPU上稳定训练数周,模型FLOP利用率达到预期水平。SpikingBrain在仅使用约150B tokens进行持续预训练的情况下,实现了与开源Transformer基线相当的性能。我们的模型还显著提高了长上下文效率,并实现了具有(部分)恒定内存和事件驱动脉冲行为的推理。例如,SpikingBrain-7B在4M token序列的首次token生成时间上实现了超过100倍的加速。此外,所提出的脉冲方案实现了69.15%的稀疏性,从而实现了低功耗运行。总的来说,这项工作展示了受脑启发的机制驱动下一代高效且可扩展的大模型设计的潜力。

🔬 方法详解

问题定义:现有基于Transformer的大语言模型在处理长文本时,计算复杂度随序列长度呈平方级增长,推理时的内存占用也线性增长,这限制了模型处理长上下文信息的能力。此外,在非NVIDIA平台上训练大型模型也面临着稳定性和效率方面的挑战。

核心思路:SpikingBrain的核心思路是借鉴大脑的神经元脉冲机制,设计一种新型的线性注意力模型,并结合专门的训练和系统优化策略,以实现高效的长文本处理。通过脉冲神经元和线性注意力机制,降低计算复杂度,减少内存占用,从而提高长文本处理的效率。

技术框架:SpikingBrain的技术框架主要包括三个方面:模型架构、算法优化和系统工程。模型架构方面,采用了线性及混合线性注意力架构,并引入了自适应脉冲神经元。算法优化方面,设计了一种高效的基于转换的训练流程和专用的脉冲编码框架。系统工程方面,定制了训练框架、算子库和针对MetaX硬件的并行策略。整体流程是从数据预处理开始,经过脉冲编码,输入到SpikingBrain模型中进行训练或推理,最后输出结果。

关键创新:SpikingBrain的关键创新在于以下几点:1) 提出了基于脉冲神经元的线性注意力机制,降低了计算复杂度;2) 设计了高效的基于转换的训练流程,加速了模型训练;3) 针对MetaX硬件进行了专门的系统优化,提高了训练效率。与传统的Transformer模型相比,SpikingBrain在长文本处理效率和能效方面具有显著优势。

关键设计:在模型架构方面,采用了线性注意力机制,将计算复杂度从O(N^2)降低到O(N),其中N是序列长度。引入了自适应脉冲神经元,通过脉冲发放来模拟神经元的激活,从而实现稀疏计算,降低功耗。在训练方面,采用了基于转换的训练流程,将脉冲神经网络转换为传统的神经网络进行训练,然后将训练好的权重转换回脉冲神经网络。在系统方面,针对MetaX GPU集群进行了专门的优化,包括定制的算子库和并行策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpikingBrain-7B在4M token序列的首次token生成时间上实现了超过100倍的加速。此外,所提出的脉冲方案实现了69.15%的稀疏性,从而实现了低功耗运行。SpikingBrain在仅使用约150B tokens进行持续预训练的情况下,实现了与开源Transformer基线相当的性能,证明了其高效性。

🎯 应用场景

SpikingBrain模型在需要处理长文本的领域具有广泛的应用前景,例如长篇文档摘要、长程对话、基因组分析、视频理解等。其高效的计算和低功耗特性使其在资源受限的设备上部署大型模型成为可能,推动人工智能在边缘计算领域的应用。

📄 摘要(原文)

Mainstream Transformer-based large language models face major efficiency bottlenecks: training computation scales quadratically with sequence length, and inference memory grows linearly, limiting long-context processing. Building large models on non-NVIDIA platforms also poses challenges for stable and efficient training. To address this, we introduce SpikingBrain, a family of brain-inspired models designed for efficient long-context training and inference. SpikingBrain leverages the MetaX GPU cluster and focuses on three aspects: (1) Model Architecture: linear and hybrid-linear attention architectures with adaptive spiking neurons; (2) Algorithmic Optimizations: an efficient, conversion-based training pipeline and a dedicated spike coding framework; (3) System Engineering: customized training frameworks, operator libraries, and parallelism strategies tailored to MetaX hardware. Using these techniques, we develop two models: SpikingBrain-7B, a linear LLM, and SpikingBrain-76B, a hybrid-linear MoE LLM. These models demonstrate the feasibility of large-scale LLM development on non-NVIDIA platforms, and training remains stable for weeks on hundreds of MetaX GPUs with Model FLOPs Utilization at expected levels. SpikingBrain achieves performance comparable to open-source Transformer baselines while using only about 150B tokens for continual pre-training. Our models also significantly improve long-context efficiency and deliver inference with (partially) constant memory and event-driven spiking behavior. For example, SpikingBrain-7B attains over 100x speedup in Time to First Token for 4M-token sequences. Furthermore, the proposed spiking scheme achieves 69.15 percent sparsity, enabling low-power operation. Overall, this work demonstrates the potential of brain-inspired mechanisms to drive the next generation of efficient and scalable large model design.