Temporal Separation with Entropy Regularization for Knowledge Distillation in Spiking Neural Networks

📄 arXiv: 2503.03144v2 📥 PDF

作者: Kairong Yu, Chengting Yu, Tianqing Zhang, Xiaochen Zhao, Shu Yang, Hongwei Wang, Qiang Zhang, Qi Xu

分类: cs.CV

发布日期: 2025-03-05 (更新: 2025-04-29)

备注: Accepted by CVPR 2025


💡 一句话要点

提出基于时序分离和熵正则化的知识蒸馏方法,提升脉冲神经网络性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 脉冲神经网络 知识蒸馏 时序分离 熵正则化 模型优化 低功耗计算

📋 核心要点

  1. SNN与ANN存在性能差距,传统知识蒸馏忽略了SNN的时空特性。
  2. 提出时序分离的logit蒸馏方法,在不同时间步长上进行蒸馏学习。
  3. 引入熵正则化稳定模型优化,实验结果表明该方法优于现有SNN蒸馏策略。

📝 摘要(中文)

受人脑启发的脉冲神经网络(SNNs)通过离散的脉冲信息传递,展现出显著的计算效率。尽管SNNs在降低推理能耗方面具有潜力,但由于现有的训练方法和固有的模型限制,SNNs与人工神经网络(ANNs)之间仍然存在性能差距。最近的研究旨在通过从ANN教师网络进行知识蒸馏(KD)来增强SNN的学习能力,但传统的蒸馏技术通常忽略了SNN独特的时空特性,因此未能充分利用其优势。为了克服这些挑战,我们提出了一种新的logit蒸馏方法,其特点是时序分离和熵正则化。该方法通过在不同时间步长上对logits进行蒸馏学习,而不是仅仅对聚合的输出特征进行蒸馏学习,从而改进了现有的SNN蒸馏技术。此外,熵正则化的集成稳定了模型优化,并进一步提高了性能。大量的实验结果表明,我们的方法优于以往的基于logit蒸馏、特征蒸馏或两者结合的SNN蒸馏策略。代码将在GitHub上提供。

🔬 方法详解

问题定义:现有SNN的训练方法和模型结构存在局限性,导致其性能与ANN存在差距。传统的知识蒸馏方法在应用于SNN时,通常忽略了SNN的时序特性,仅关注最终的输出结果,无法充分利用SNN在时间维度上的信息表达能力。

核心思路:论文的核心思路是利用SNN在时间维度上的信息,通过在不同时间步长上进行知识蒸馏,将ANN教师网络的知识更有效地传递给SNN学生网络。同时,为了稳定训练过程,引入熵正则化,避免模型陷入局部最优。

技术框架:该方法主要包含以下几个阶段:首先,使用ANN教师网络对输入数据进行预测,得到logits。然后,将输入数据输入到SNN学生网络中,并在每个时间步长上获得SNN的logits。接着,计算ANN教师网络和SNN学生网络在每个时间步长上的logits之间的差异,并使用时序分离的蒸馏损失函数进行优化。最后,引入熵正则化项,进一步稳定训练过程,提高模型性能。

关键创新:该方法最重要的创新点在于提出了时序分离的知识蒸馏方法,即在不同的时间步长上对logits进行蒸馏学习,而不是仅仅对聚合的输出特征进行蒸馏学习。这种方法能够更好地利用SNN的时序信息,从而提高SNN的性能。此外,引入熵正则化进一步提升了模型的泛化能力。

关键设计:关键设计包括:1) 时序分离的蒸馏损失函数,用于衡量ANN教师网络和SNN学生网络在每个时间步长上的logits之间的差异。2) 熵正则化项,用于稳定训练过程,避免模型陷入局部最优。3) 合适的温度参数,用于调整ANN教师网络输出的logits的平滑程度。具体的网络结构和参数设置需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数据集上优于现有的SNN蒸馏策略,包括基于logit蒸馏、特征蒸馏或两者结合的方法。具体而言,该方法在CIFAR-10数据集上取得了X%的性能提升,在CIFAR-100数据集上取得了Y%的性能提升(具体数值未知,需要在论文中查找)。这些结果证明了该方法在提升SNN性能方面的有效性。

🎯 应用场景

该研究成果可应用于低功耗、高效率的边缘计算设备,例如移动机器人、智能传感器和可穿戴设备。通过提升SNN的性能,可以使其在资源受限的环境中执行复杂的计算任务,例如图像识别、语音识别和控制任务。未来,该方法有望推动SNN在人工智能领域的广泛应用。

📄 摘要(原文)

Spiking Neural Networks (SNNs), inspired by the human brain, offer significant computational efficiency through discrete spike-based information transfer. Despite their potential to reduce inference energy consumption, a performance gap persists between SNNs and Artificial Neural Networks (ANNs), primarily due to current training methods and inherent model limitations. While recent research has aimed to enhance SNN learning by employing knowledge distillation (KD) from ANN teacher networks, traditional distillation techniques often overlook the distinctive spatiotemporal properties of SNNs, thus failing to fully leverage their advantages. To overcome these challenge, we propose a novel logit distillation method characterized by temporal separation and entropy regularization. This approach improves existing SNN distillation techniques by performing distillation learning on logits across different time steps, rather than merely on aggregated output features. Furthermore, the integration of entropy regularization stabilizes model optimization and further boosts the performance. Extensive experimental results indicate that our method surpasses prior SNN distillation strategies, whether based on logit distillation, feature distillation, or a combination of both. The code will be available on GitHub.