Self-Attentive Spatio-Temporal Calibration for Precise Intermediate Layer Matching in ANN-to-SNN Distillation

📄 arXiv: 2501.08049v1 📥 PDF

作者: Di Hong, Yueming Wang

分类: cs.AI, cs.CV, cs.LG

发布日期: 2025-01-14


💡 一句话要点

提出自注意力时空校准方法,解决ANN到SNN蒸馏中的中间层匹配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 脉冲神经网络 知识蒸馏 自注意力机制 时空校准 中间层特征匹配

📋 核心要点

  1. 现有ANN到SNN的知识蒸馏方法忽略了中间层特征,或未能解决空间和时间语义不一致问题,导致SNN性能下降。
  2. 论文提出自注意力时空校准(SASTC)方法,利用自注意力机制在空间和时间维度上对齐ANN和SNN的中间层特征。
  3. 实验结果表明,SASTC在多个数据集上超越了现有方法,并在CIFAR-10和CIFAR-100上首次实现了SNN超越ANN的性能。

📝 摘要(中文)

脉冲神经网络(SNNs)由于其事件驱动机制在低功耗计算方面具有潜力,但与人工神经网络(ANNs)相比,精度通常较低。ANN到SNN的知识蒸馏可以提高SNN的性能,但先前的方法要么只关注标签信息,忽略了有价值的中间层特征,要么使用逐层方法,忽略了空间和时间语义的不一致性,导致性能下降。为了解决这些限制,我们提出了一种名为自注意力时空校准(SASTC)的新方法。SASTC使用自注意力来识别ANN和SNN之间在空间和时间上语义对齐的层对。这使得能够自主地传递相关的语义信息。大量的实验表明,SASTC优于现有方法,有效地解决了不匹配问题。在静态数据集上,获得了优异的精度结果,包括在CIFAR-10上达到95.12%,在CIFAR-100上达到79.40%(2个时间步长),在ImageNet上达到68.69%(4个时间步长)。在神经形态数据集上,DVS-Gesture达到97.92%,DVS-CIFAR10达到83.60%。这标志着SNN首次在CIFAR-10和CIFAR-100上超越了ANN,为SNN的潜在应用带来了新的曙光。

🔬 方法详解

问题定义:论文旨在解决ANN到SNN知识蒸馏过程中,由于ANN和SNN结构差异导致的中间层特征不匹配问题。现有方法要么只关注最终的标签信息,忽略了中间层有价值的特征,要么采用逐层匹配的方式,无法有效处理空间和时间上的语义不一致性,从而限制了SNN的性能提升。

核心思路:论文的核心思路是利用自注意力机制,在空间和时间维度上对ANN和SNN的中间层特征进行校准。通过自注意力机制,模型可以自动学习到ANN和SNN之间语义对齐的层对,并提取相关的语义信息进行传递,从而缓解特征不匹配问题。这种方法避免了人工设计的逐层匹配,更加灵活和有效。

技术框架:SASTC方法主要包含以下几个阶段:1) ANN和SNN的训练;2) 中间层特征提取;3) 自注意力模块进行空间和时间上的特征对齐;4) 利用对齐后的特征进行知识蒸馏,提升SNN的性能。整体框架通过自注意力机制实现了ANN和SNN中间层特征的有效匹配和知识迁移。

关键创新:该论文最重要的技术创新点在于提出了自注意力时空校准(SASTC)方法,首次将自注意力机制引入到ANN到SNN的知识蒸馏中,用于解决中间层特征的不匹配问题。与现有方法相比,SASTC能够自动学习ANN和SNN之间语义对齐的层对,并提取相关的语义信息,从而更加有效地进行知识迁移。

关键设计:SASTC的关键设计包括:1) 使用自注意力模块来学习ANN和SNN中间层特征之间的空间和时间关系;2) 设计了合适的损失函数,用于指导自注意力模块的学习,并促进知识从ANN到SNN的迁移;3) 针对不同的数据集和网络结构,调整了自注意力模块的参数,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SASTC方法在多个数据集上取得了显著的性能提升。在静态数据集上,CIFAR-10达到95.12%,CIFAR-100达到79.40%,ImageNet达到68.69%。更重要的是,在CIFAR-10和CIFAR-100数据集上,SNN首次超越了ANN的性能。在神经形态数据集上,DVS-Gesture达到97.92%,DVS-CIFAR10达到83.60%。这些结果表明SASTC方法能够有效地解决ANN到SNN蒸馏中的中间层匹配问题,并显著提升SNN的性能。

🎯 应用场景

该研究成果可应用于低功耗、低延迟的边缘计算设备,例如智能传感器、移动机器人和物联网设备。通过将ANN模型蒸馏到SNN模型,可以在保持较高精度的同时,显著降低计算功耗,从而延长设备的使用寿命,并提高响应速度。未来,该技术有望推动SNN在更多实际场景中的应用。

📄 摘要(原文)

Spiking Neural Networks (SNNs) are promising for low-power computation due to their event-driven mechanism but often suffer from lower accuracy compared to Artificial Neural Networks (ANNs). ANN-to-SNN knowledge distillation can improve SNN performance, but previous methods either focus solely on label information, missing valuable intermediate layer features, or use a layer-wise approach that neglects spatial and temporal semantic inconsistencies, leading to performance degradation.To address these limitations, we propose a novel method called self-attentive spatio-temporal calibration (SASTC). SASTC uses self-attention to identify semantically aligned layer pairs between ANN and SNN, both spatially and temporally. This enables the autonomous transfer of relevant semantic information. Extensive experiments show that SASTC outperforms existing methods, effectively solving the mismatching problem. Superior accuracy results include 95.12% on CIFAR-10, 79.40% on CIFAR-100 with 2 time steps, and 68.69% on ImageNet with 4 time steps for static datasets, and 97.92% on DVS-Gesture and 83.60% on DVS-CIFAR10 for neuromorphic datasets. This marks the first time SNNs have outperformed ANNs on both CIFAR-10 and CIFAR-100, shedding the new light on the potential applications of SNNs.