On Reducing Activity with Distillation and Regularization for Energy Efficient Spiking Neural Networks

📄 arXiv: 2406.18350v1 📥 PDF

作者: Thomas Louis, Benoit Miramond, Alain Pegatoquet, Adrien Girard

分类: cs.CV, eess.IV

发布日期: 2024-06-26


💡 一句话要点

提出基于知识蒸馏和正则化的SNN训练方法,降低活动量并保持精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 脉冲神经网络 知识蒸馏 正则化 能效优化 稀疏性 代理梯度下降

📋 核心要点

  1. SNN虽然在能效上有潜力,但现有训练方法往往导致网络活动量增加,抵消了节能优势。
  2. 论文核心思想是利用知识蒸馏和正则化方法,在SNN训练中优化性能和脉冲活动之间的平衡。
  3. 实验结果表明,该方法在保持精度的同时,显著降低了网络的脉冲活动,验证了其有效性。

📝 摘要(中文)

脉冲神经网络(SNNs)作为形式神经网络(FNNs),即人工神经网络(ANNs)的一种节能替代方案,正受到越来越多的关注。尽管人们对SNNs的兴趣日益浓厚,尤其是在边缘应用方面,但与FNNs相比,这些事件驱动的神经网络在训练方面存在困难。为了缓解这个问题,人们开发了许多创新方法,以提供或多或少与FNNs相当的性能。然而,通常不考虑网络在推理过程中的脉冲活动。虽然SNNs通常可能具有与FNNs相当的性能,但这往往是以增加网络活动为代价的,从而限制了使用它们作为更节能解决方案的益处。本文提出利用知识蒸馏(KD)进行SNNs的代理梯度下降训练,以优化性能和脉冲活动之间的权衡。然后,在理解了KD导致稀疏性增加的原因之后,我们还探索了激活正则化,并提出了一种新的logits正则化方法。这些方法在多个数据集上得到了验证,清楚地表明在保持精度的同时,网络脉冲活动有所降低(在GSC上降低了-26.73%,在CIFAR-10上降低了-14.32%)。

🔬 方法详解

问题定义:SNNs虽然理论上比ANNS更节能,但现有的训练方法往往导致SNNs在推理时产生更高的脉冲活动,从而降低了其能效优势。因此,如何降低SNNs的脉冲活动,同时保持其性能,是一个关键问题。

核心思路:论文的核心思路是利用知识蒸馏(KD)和正则化技术来优化SNN的训练过程。通过KD,SNN可以从一个预训练的ANN“教师”网络中学习,从而获得更好的性能。同时,通过激活正则化和logits正则化,可以鼓励SNN产生更稀疏的脉冲活动,从而降低功耗。

技术框架:整体框架包括以下几个步骤:1) 首先训练一个高性能的ANN作为教师网络。2) 使用知识蒸馏,将教师网络的知识转移到SNN学生网络。3) 在SNN的训练过程中,引入激活正则化或logits正则化,以鼓励稀疏的脉冲活动。4) 评估SNN的性能和脉冲活动。

关键创新:论文的关键创新在于:1) 将知识蒸馏应用于SNN的训练,提高了SNN的性能。2) 提出了logits正则化方法,能够更有效地降低SNN的脉冲活动。3) 系统地研究了KD和正则化对SNN脉冲活动的影响。

关键设计:在知识蒸馏中,使用了教师网络的logits作为目标,并使用交叉熵损失函数来训练SNN。激活正则化通过惩罚激活函数的输出值来鼓励稀疏性。Logits正则化则直接惩罚SNN的logits输出,使其更接近于0,从而降低脉冲活动。具体的正则化系数需要根据数据集和网络结构进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的方法在GSC数据集上降低了26.73%的脉冲活动,在CIFAR-10数据集上降低了14.32%的脉冲活动,同时保持了与现有方法相当的精度。这表明该方法能够有效地降低SNN的功耗,并提高其能效。

🎯 应用场景

该研究成果可应用于边缘计算设备、物联网设备等对功耗敏感的场景。通过降低SNN的脉冲活动,可以显著降低设备的功耗,延长电池寿命,并提高设备的计算效率。此外,该方法还可以应用于其他类型的脉冲神经网络,具有广泛的应用前景。

📄 摘要(原文)

Interest in spiking neural networks (SNNs) has been growing steadily, promising an energy-efficient alternative to formal neural networks (FNNs), commonly known as artificial neural networks (ANNs). Despite increasing interest, especially for Edge applications, these event-driven neural networks suffered from their difficulty to be trained compared to FNNs. To alleviate this problem, a number of innovative methods have been developed to provide performance more or less equivalent to that of FNNs. However, the spiking activity of a network during inference is usually not considered. While SNNs may usually have performance comparable to that of FNNs, it is often at the cost of an increase of the network's activity, thus limiting the benefit of using them as a more energy-efficient solution. In this paper, we propose to leverage Knowledge Distillation (KD) for SNNs training with surrogate gradient descent in order to optimize the trade-off between performance and spiking activity. Then, after understanding why KD led to an increase in sparsity, we also explored Activations regularization and proposed a novel method with Logits Regularization. These approaches, validated on several datasets, clearly show a reduction in network spiking activity (-26.73% on GSC and -14.32% on CIFAR-10) while preserving accuracy.