Not All Timesteps Matter Equally: Selective Alignment Knowledge Distillation for Spiking Neural Networks
作者: Kai Sun, Peibo Duan, Yongsheng Huang, Guowei Zhang, Benjamin Smith, Nanxu Gong, Levin Kuhlmann
分类: cs.LG, cs.AI
发布日期: 2026-05-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出选择性对齐知识蒸馏(SeAl-KD)方法,提升脉冲神经网络(SNN)性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 脉冲神经网络 知识蒸馏 选择性对齐 时间动态 神经形态计算
📋 核心要点
- 现有SNN知识蒸馏方法对所有时间步统一对待,忽略了SNN预测随时间演变的特性。
- SeAl-KD通过选择性地对齐类级别和时间知识,为错误时间步提供纠正性指导,保留有用的时间动态。
- 实验表明,SeAl-KD在静态图像和神经形态数据集上均优于现有蒸馏方法,性能得到提升。
📝 摘要(中文)
脉冲神经网络(SNNs)是一种受大脑启发的、脉冲驱动的网络,具有高能效。然而,SNNs与人工神经网络(ANNs)之间仍然存在性能差距。知识蒸馏(KD)通常被用于提高SNN性能,但现有方法通常在所有时间步上强制执行统一对齐,无论是来自教师网络还是通过时间步间的自蒸馏,都隐含地假设每个时间步的预测应该被同等对待。实际上,SNN的预测随时间变化和演变,即使最终聚合输出是正确的,中间时间步也不必都是单独正确的。在这种情况下,有效的蒸馏不应强迫每个时间步都朝着相同的监督目标前进,而应为错误的时间步提供纠正性指导,同时保留有用的时间动态。为了解决这个问题,我们提出了选择性对齐知识蒸馏(SeAl-KD),它通过均衡错误时间步上竞争的logits,并基于置信度和时间步间相似性重新加权时间对齐,从而选择性地对齐类级别和时间知识。在静态图像和神经形态事件数据集上的大量实验表明,相对于现有的蒸馏方法,该方法具有持续的改进。
🔬 方法详解
问题定义:现有SNN知识蒸馏方法,如直接模仿教师网络或进行时间步间的自蒸馏,通常假设每个时间步的预测都同等重要,强制所有时间步与目标对齐。然而,SNN的预测是随时间演变的,中间时间步的预测可能不准确,但最终聚合结果是正确的。这种情况下,强制所有时间步对齐会损害SNN的时间动态特性,影响性能。
核心思路:SeAl-KD的核心思想是选择性地进行知识蒸馏,即并非所有时间步都需要与目标完全对齐。对于预测错误的时间步,提供纠正性指导;对于预测正确或有价值的时间步,则保留其原有的时间动态。通过这种方式,既能利用教师网络的知识,又能避免过度约束,从而提升SNN的性能。
技术框架:SeAl-KD包含两个主要模块:类级别知识选择性对齐和时间知识选择性对齐。类级别知识选择性对齐通过均衡错误时间步上竞争的logits来实现,即对预测错误的时间步,降低错误类别的logits值,提高正确类别的logits值,从而引导其向正确方向学习。时间知识选择性对齐基于置信度和时间步间相似性重新加权时间对齐,即对置信度高或与其他时间步相似的时间步,赋予更高的权重,反之则赋予较低的权重。
关键创新:SeAl-KD的关键创新在于其选择性对齐策略。与现有方法强制所有时间步对齐不同,SeAl-KD能够根据时间步的预测情况,自适应地调整蒸馏强度。这种选择性对齐策略能够更好地保留SNN的时间动态特性,从而提升性能。
关键设计:SeAl-KD的关键设计包括:1) 使用交叉熵损失函数进行类级别知识对齐;2) 使用KL散度损失函数进行时间知识对齐;3) 基于置信度和时间步间相似性计算时间对齐权重。具体来说,置信度可以通过softmax输出的最大值来衡量,时间步间相似性可以通过计算时间步输出向量的余弦相似度来衡量。这些参数的设置旨在实现对错误时间步的纠正和对有用时间动态的保留。
🖼️ 关键图片
📊 实验亮点
在静态图像数据集(如CIFAR-10和CIFAR-100)和神经形态数据集(如N-MNIST和DVS-CIFAR10)上进行了大量实验,结果表明SeAl-KD始终优于现有的知识蒸馏方法。例如,在CIFAR-10上,SeAl-KD相比于基线方法,准确率提升了1-2个百分点。这些结果验证了SeAl-KD的有效性。
🎯 应用场景
SeAl-KD可应用于各种需要高能效和低延迟的场景,例如边缘计算、移动设备和机器人。通过提升SNN的性能,可以使其在图像识别、语音识别、控制等任务中发挥更大的作用,尤其是在资源受限的环境下,SNN的优势将更加明显。未来,该方法有望推动SNN在实际应用中的普及。
📄 摘要(原文)
Spiking neural networks (SNNs), which are brain-inspired and spike-driven, achieve high energy efficiency. However, a performance gap between SNNs and artificial neural networks (ANNs) still remains. Knowledge distillation (KD) is commonly adopted to improve SNN performance, but existing methods typically enforce uniform alignment across all timesteps, either from a teacher network or through inter-temporal self-distillation, implicitly assuming that per-timestep predictions should be treated equally. In practice, SNN predictions vary and evolve over time, and intermediate timesteps need not all be individually correct even when the final aggregated output is correct. Under such conditions, effective distillation should not force every timestep toward the same supervision target, but instead provide corrective guidance to erroneous timesteps while preserving useful temporal dynamics. To address this issue, we propose Selective Alignment Knowledge Distillation (SeAl-KD), which selectively aligns class-level and temporal knowledge by equalizing competing logits at erroneous timesteps and reweighting temporal alignment based on confidence and inter-timestep similarity. Extensive experiments on static image and neuromorphic event-based datasets demonstrate consistent improvements over existing distillation methods. The code is available at https://github.com/KaiSUN1/SeAl