Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks

作者: Xian Zhong, Shengwang Hu, Wenxuan Liu, Wenxin Huang, Jianhao Ding, Zhaofei Yu, Tiejun Huang

分类: cs.CV

发布日期: 2024-09-19

🔗 代码/项目: GITHUB

💡 一句话要点

提出混合逐步蒸馏SNN，解决事件相机视觉识别中低延迟与高精度难以兼顾的问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 脉冲神经网络 事件相机 低延迟 知识蒸馏 神经形态计算 视觉识别 混合训练

📋 核心要点

现有SNN在神经形态数据集分类中，难以同时保证低延迟和高精度，尤其是在低时间步长下性能显著下降。
论文提出混合逐步蒸馏(HSD)方法，解耦事件帧数与SNN时间步长，并引入逐步知识蒸馏(SKD)模块。
实验结果表明，该方法在神经形态数据集上取得了有竞争力的分类性能，尤其是在低时间步长下。

📝 摘要（中文）

脉冲神经网络(SNNs)因其低功耗和高生物可解释性而备受关注。其丰富的时空信息处理能力和事件驱动特性使其非常适合神经形态数据集。然而，目前的SNN在对这些数据集进行分类时，难以平衡准确性和延迟。本文提出了一种针对神经形态数据集的混合逐步蒸馏(HSD)方法，以减轻在较低时间步长下性能的显著下降。我们的工作解耦了事件帧数和SNN时间步长之间的依赖关系，在训练阶段利用更多的事件帧来提高性能，而在推理阶段使用更少的事件帧来减少延迟。然而，SNN在所有时间步长的平均输出容易受到具有异常输出的单个时间步长的影响，尤其是在极低的时间步长下。为了解决这个问题，我们实现了一个逐步知识蒸馏(SKD)模块，该模块考虑了SNN在每个时间步长的输出分布的变化。经验证据表明，我们的方法在神经形态数据集的分类任务中产生了有竞争力的性能，尤其是在较低的时间步长下。我们的代码将在{https://github.com/hsw0929/HSD}上提供。

🔬 方法详解

问题定义：论文旨在解决事件相机数据驱动的视觉识别任务中，脉冲神经网络(SNN)在低延迟需求下精度显著下降的问题。现有的SNN方法难以在保证精度的同时，降低推理延迟，尤其是在神经形态数据集上，低时间步长会导致性能急剧下降。

核心思路：论文的核心思路是解耦训练和推理阶段的事件帧数。在训练阶段，使用更多的事件帧来提升模型精度；在推理阶段，使用更少的事件帧来降低延迟。同时，通过逐步知识蒸馏(SKD)模块，缓解低时间步长下SNN输出不稳定的问题。

技术框架：整体框架包含两个主要部分：混合逐步蒸馏(HSD)和逐步知识蒸馏(SKD)。HSD通过在训练时使用更多事件帧、推理时使用更少事件帧来解耦延迟和精度。SKD模块则在每个时间步长上进行知识蒸馏，利用教师网络的输出指导学生网络的学习，从而提高学生网络在低时间步长下的性能。

关键创新：论文的关键创新在于HSD方法，它打破了事件帧数与SNN时间步长之间的强耦合关系。传统方法中，事件帧数直接决定了SNN的时间步长，限制了模型在低延迟下的性能。HSD允许在训练时使用更多帧以提升精度，而在推理时使用更少帧以降低延迟，从而实现了延迟和精度之间的解耦。此外，SKD模块针对SNN在不同时间步长的输出分布差异进行蒸馏，进一步提升了低时间步长的性能。

关键设计：HSD的关键设计在于训练和推理阶段使用不同数量的事件帧。SKD模块的关键设计在于损失函数，它考虑了每个时间步长的输出分布，并使用KL散度等方法来衡量教师网络和学生网络输出之间的差异。具体的网络结构和参数设置取决于具体的SNN架构，但整体思路是利用教师网络的知识来指导学生网络在每个时间步长的学习。

🖼️ 关键图片

📊 实验亮点

论文提出的HSD方法在神经形态数据集上取得了显著的性能提升，尤其是在低时间步长下。具体性能数据需要在论文中查找，但整体趋势是，在保证一定精度的情况下，显著降低了推理延迟。与现有SNN方法相比，该方法在低延迟下实现了更高的分类准确率。

🎯 应用场景

该研究成果可应用于需要低延迟、高精度视觉识别的场景，例如自动驾驶、机器人导航、高速运动目标跟踪等。事件相机具有高动态范围和低延迟的特性，结合该方法可以实现快速、准确的环境感知，提升系统的实时性和鲁棒性。未来，该方法有望推动事件相机在更多实际应用中的落地。

📄 摘要（原文）

Spiking neural networks (SNNs) have garnered significant attention for their low power consumption and high biological interpretability. Their rich spatio-temporal information processing capability and event-driven nature make them ideally well-suited for neuromorphic datasets. However, current SNNs struggle to balance accuracy and latency in classifying these datasets. In this paper, we propose Hybrid Step-wise Distillation (HSD) method, tailored for neuromorphic datasets, to mitigate the notable decline in performance at lower time steps. Our work disentangles the dependency between the number of event frames and the time steps of SNNs, utilizing more event frames during the training stage to improve performance, while using fewer event frames during the inference stage to reduce latency. Nevertheless, the average output of SNNs across all time steps is susceptible to individual time step with abnormal outputs, particularly at extremely low time steps. To tackle this issue, we implement Step-wise Knowledge Distillation (SKD) module that considers variations in the output distribution of SNNs at each time step. Empirical evidence demonstrates that our method yields competitive performance in classification tasks on neuromorphic datasets, especially at lower time steps. Our code will be available at: {https://github.com/hsw0929/HSD}.

Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理