FAS: Fast ANN-SNN Conversion for Spiking Large Language Models

📄 arXiv: 2502.04405v2 📥 PDF

作者: Long Chen, Xiaotian Song, Andy Song, BaDong Chen, Jiancheng Lv, Yanan Sun

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-06 (更新: 2025-05-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出FAS快速ANN-SNN转换方法,高效构建Spiking大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Spiking神经网络 大语言模型 ANN-SNN转换 低功耗计算 全参数微调

📋 核心要点

  1. 现有Spiking LLM构建方法(直接训练、ANN-SNN转换)存在性能下降和计算成本高的挑战。
  2. FAS方法通过全参数微调和粗到精校准,实现ANN到SNN的快速转换,提升Spiking LLM性能。
  3. 实验表明,FAS在保证精度的前提下,显著降低了推理延迟和计算成本,节能效果显著。

📝 摘要(中文)

Spiking大语言模型在多种场景中被认为是LLM的良好替代方案。现有的Spiking LLM创建方法,如直接训练和ANN-SNN转换,通常存在性能下降和计算成本较高的问题。为了解决这些问题,我们提出了一种新颖的快速ANN-SNN转换策略(FAS),该策略分两个阶段将LLM转换为Spiking LLM。第一阶段采用预训练模型的全参数微调,因此不需要从头开始进行任何直接训练。第二阶段引入了一种由粗到精的校准方法,以减少转换误差并提高准确性。在四个不同规模的LLM上进行的语言和视觉语言任务实验表明,FAS可以实现最先进的性能,同时显著降低推理延迟和计算成本。值得注意的是,FAS仅需八个时间步即可达到比OPT-7B模型高3%的准确率,同时降低96.63%的能耗。源代码可在https://github.com/lc783/FAS 获取。

🔬 方法详解

问题定义:论文旨在解决将传统人工神经网络(ANN)转换为脉冲神经网络(SNN)的大语言模型时,存在的性能损失和高计算成本问题。现有的直接训练SNN LLM计算开销巨大,而ANN-SNN转换方法通常会导致精度下降,难以达到与原始ANN模型相当的性能。

核心思路:论文的核心思路是通过两阶段的快速ANN-SNN转换策略(FAS)来解决上述问题。首先,利用全参数微调来保留预训练模型的知识,避免从头训练SNN带来的困难。然后,采用粗到精的校准方法,逐步减小ANN到SNN转换过程中的误差,从而提高SNN模型的精度。

技术框架:FAS方法主要包含两个阶段:1) 全参数微调:使用预训练的ANN LLM,对其所有参数进行微调,使其适应SNN的特性。这一步旨在保留原始模型的知识,并为后续的转换做好准备。2) 粗到精校准:该阶段通过迭代的方式,逐步校准SNN模型的参数,以减小转换误差。首先进行粗略的全局校准,然后进行精细的局部校准,最终得到高性能的SNN LLM。

关键创新:FAS的关键创新在于其高效的转换策略和粗到精的校准方法。全参数微调避免了从头训练SNN的巨大开销,而粗到精的校准方法能够有效地减小转换误差,从而保证了SNN模型的精度。与传统的ANN-SNN转换方法相比,FAS能够更快地实现高性能的SNN LLM。

关键设计:在全参数微调阶段,使用了标准的交叉熵损失函数。在粗到精校准阶段,设计了一种基于阈值调整的校准方法。具体来说,首先对所有神经元的阈值进行全局调整,然后根据神经元的激活情况,对部分神经元的阈值进行局部调整。此外,论文还探索了不同的时间步长对SNN模型性能的影响,最终选择了合适的步长以平衡精度和计算成本。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,FAS方法在多个LLM规模上均取得了state-of-the-art的性能。例如,在OPT-7B模型上,FAS仅需8个时间步即可达到比原始模型高3%的准确率,同时降低96.63%的能耗。这些结果表明,FAS是一种高效且有效的ANN-SNN转换方法,能够显著降低Spiking LLM的计算成本。

🎯 应用场景

该研究成果可应用于对能耗敏感的边缘设备和移动设备,例如智能手机、可穿戴设备和物联网设备。Spiking LLM的低功耗特性使其能够在资源受限的环境中部署复杂的自然语言处理任务,例如语音识别、机器翻译和文本生成。此外,该方法还可以促进类脑计算的发展,为构建更高效、更智能的计算系统提供新的思路。

📄 摘要(原文)

Spiking Large Language Models have been shown as a good alternative to LLMs in various scenarios. Existing methods for creating Spiking LLMs, i.e., direct training and ANN-SNN conversion, often suffer from performance degradation and relatively high computational costs. To address these issues, we propose a novel Fast ANN-SNN conversion strategy (FAS) that transforms LLMs into spiking LLMs in two stages. The first stage employs a full-parameter fine-tuning of pre-trained models, so it does not need any direct training from scratch. The second stage introduces a coarse-to-fine calibration method to reduce conversion errors and improve accuracy. Experiments on both language and vision-language tasks across four different scales of LLMs demonstrate that FAS can achieve state-of-the-art performance yet with significantly reduced inference latency and computational costs. Notably, FAS only takes eight timesteps to achieve an accuracy of 3\% higher than that of the OPT-7B model, while reducing energy consumption by 96.63\%. The source code is available at https://github.com/lc783/FAS