SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference

📄 arXiv: 2604.22575v1 📥 PDF

作者: Yuqi Pan, Jinghao Zhuang, Yupeng Feng, Fangzhi Zhong, Siyu Ding, Xuerui Qiu, Shaowei Gu, Bohan Sun, Zhiyong Qin, Yibo Zhong, Lingtao Ouyang, Kun Yang, Zehao Liu, Yuhong Chou, Shurong Wang, Anjie Hu, Han Xu, Bo Xu, Guoqi Li

分类: cs.LG

发布日期: 2026-04-24


💡 一句话要点

SpikingBrain2.0:面向高效长上下文和跨平台推理的类脑基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 类脑计算 稀疏注意力 长上下文建模 跨平台推理 脉冲神经网络

📋 核心要点

  1. 现有Transformer模型在处理长序列时面临计算和推理瓶颈,尤其是在全注意力机制下,计算复杂度随序列长度呈平方增长。
  2. SpikingBrain2.0提出双空间稀疏注意力(DSSA),结合稀疏Softmax和稀疏线性注意力,在性能和效率之间取得平衡,优化长上下文建模。
  3. SpikingBrain2.0在4M上下文时实现了10.13倍的TTFT加速,并支持在8个A100 GPU上超过10M tokens,同时展示了良好的跨平台兼容性。

📝 摘要(中文)

本文提出了SpikingBrain2.0 (SpB2.0),一个50亿参数的模型,旨在提升架构和训练效率。主要贡献包括:(1) 架构创新:提出了双空间稀疏注意力(DSSA),一种层间混合的稀疏Softmax注意力(MoBA)和稀疏线性注意力(SSE),从而在长上下文建模中实现了更好的性能-效率权衡。SpB2.0还支持双量化路径:INT8-Spiking编码支持稀疏事件驱动计算,而FP8编码加速了现代GPU上的推理。(2) 增强的训练策略:开发了一个优化的Transformer-to-Hybrid (T2H)流程,使用精选的开源数据,为LLM和VLM提供双重转换路径。实验表明,SpB2.0-5B和SpB2.0-VL-5B以低于7k A100 GPU小时的代价恢复了基础Transformer (Qwen3-4B)的大部分能力。SpB2.0在4M上下文时实现了10.13倍的TTFT加速,并在vLLM下支持8个A100 GPU上超过10M的tokens,而全注意力模型超过了内存限制。它还展示了强大的跨平台兼容性,实现了FP8 GPU推理(在250k时加速2.52倍)和高效的神经形态执行(64.31%的稀疏性,在500MHz时面积和功耗分别降低70.6%和46.5%)。总的来说,SpikingBrain2.0为轻量级、多模态、脉冲神经网络基础模型提供了一条可行的途径,突出了将类脑机制与高效架构相结合以用于资源受限和边缘场景的潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)和视觉语言模型(VLM)在处理长上下文序列时面临的计算和推理效率瓶颈。传统的Transformer模型,特别是基于全注意力机制的模型,其计算复杂度随序列长度呈平方增长,导致在长序列上的训练和推理成本过高,内存需求巨大。

核心思路:论文的核心思路是借鉴大脑的稀疏连接和事件驱动计算机制,设计一种新型的稀疏注意力机制,即双空间稀疏注意力(DSSA)。DSSA通过在不同层之间混合使用稀疏Softmax注意力(MoBA)和稀疏线性注意力(SSE),在性能和效率之间取得更好的平衡。同时,采用Transformer-to-Hybrid (T2H)训练流程,将预训练的Transformer模型转换为混合模型,降低训练成本。

技术框架:SpikingBrain2.0的整体架构基于Transformer,但引入了DSSA模块替换传统的全注意力模块。T2H训练流程包含两个转换路径,分别针对LLM和VLM。模型支持双量化路径:INT8-Spiking编码用于稀疏事件驱动计算,FP8编码用于加速GPU推理。整体流程为:首先,使用开源数据预训练Transformer模型;然后,通过T2H流程将其转换为SpikingBrain2.0模型;最后,进行量化和跨平台部署。

关键创新:最重要的技术创新点是DSSA模块,它是一种层间混合的稀疏注意力机制。与传统的全注意力机制相比,DSSA通过稀疏化注意力矩阵,显著降低了计算复杂度。与单一的稀疏注意力机制相比,DSSA结合了MoBA和SSE的优点,在性能和效率之间实现了更好的权衡。此外,双量化路径的设计也为模型在不同平台上的高效部署提供了灵活性。

关键设计:DSSA模块的关键设计在于如何选择和混合MoBA和SSE。具体来说,MoBA主要用于捕捉局部依赖关系,而SSE主要用于捕捉全局依赖关系。T2H流程的关键设计在于如何有效地将预训练的Transformer模型的知识迁移到SpikingBrain2.0模型中。这涉及到调整网络结构、初始化参数和设计合适的损失函数。INT8-Spiking编码的关键设计在于如何将连续的激活值转换为离散的脉冲信号,以及如何利用脉冲信号进行高效的计算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpikingBrain2.0-5B模型仅使用不到7k A100 GPU小时,即可恢复Qwen3-4B基础Transformer模型的大部分能力。在4M上下文长度下,SpikingBrain2.0实现了10.13倍的TTFT加速。在FP8 GPU推理中,SpikingBrain2.0在250k上下文长度下实现了2.52倍的加速。在神经形态硬件上,SpikingBrain2.0实现了64.31%的稀疏性,并在500MHz时面积和功耗分别降低了70.6%和46.5%。

🎯 应用场景

SpikingBrain2.0具有广泛的应用前景,尤其是在资源受限和边缘计算场景下。例如,它可以应用于移动设备上的自然语言处理、智能监控系统中的视频分析、以及机器人中的实时决策等。该研究有望推动类脑计算在实际应用中的发展,并为构建更高效、更节能的人工智能系统提供新的思路。

📄 摘要(原文)

Scaling context length is reshaping large-model development, yet full-attention Transformers suffer from prohibitive computation and inference bottlenecks at long sequences. A key challenge is to design foundation models that maintain performance and long-context efficiency with minimal training overhead. We introduce SpikingBrain2.0 (SpB2.0), a 5B model that advances both architecture and training efficiency of its predecessor. Our contributions are two-fold. (1) Architectural Innovation: We propose Dual-Space Sparse Attention (DSSA), an inter-layer hybrid of Sparse Softmax Attention (MoBA) and Sparse Linear Attention (SSE), achieving an improved performance-efficiency trade-off for long-context modeling. SpB2.0 further supports dual quantization paths: INT8-Spiking coding enables sparse event-driven computation, while FP8 coding accelerates inference on modern GPUs. (2) Enhanced Training Strategy: We develop an optimized Transformer-to-Hybrid (T2H) pipeline with dual conversion paths for LLMs and VLMs using curated open-source data. Empirically, SpB2.0-5B and SpB2.0-VL-5B recover most of the base Transformer (Qwen3-4B) capability with under 7k A100 GPU hours. SpB2.0 achieves a 10.13x TTFT speedup at 4M context and supports over 10M tokens on 8 A100 GPUs under vLLM, where full-attention models exceed memory limits. It also demonstrates strong cross-platform compatibility, enabling FP8 GPU inference (2.52x speedup at 250k) and efficient neuromorphic execution (64.31% sparsity, with 70.6% and 46.5% area and power reduction at 500MHz). Overall, SpikingBrain2.0 provides a practical pathway for lightweight, multimodal, spiking foundation models, highlighting the potential of combining brain-inspired mechanisms with efficient architectures for resource-constrained and edge scenarios.