DS2TA: Denoising Spiking Transformer with Attenuated Spatiotemporal Attention
作者: Boxun Xu, Hejia Geng, Yuxuan Yin, Peng Li
分类: cs.NE, cs.AI, cs.CV, cs.LG
发布日期: 2024-09-20
备注: arXiv admin note: text overlap with arXiv:2311.09376
💡 一句话要点
DS2TA:一种具有衰减时空注意力的去噪脉冲Transformer,用于提升视觉任务性能。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 脉冲神经网络 Transformer 时空注意力 神经形态计算 视觉任务 去噪 低功耗
📋 核心要点
- 现有的脉冲Transformer虽然在神经形态硬件上具有超低功耗的潜力,但未能充分利用脉冲神经网络的计算能力。
- DS2TA通过引入衰减时空注意力机制,同时考虑时间和空间上的激发相关性,从而更有效地利用脉冲神经元的计算能力。
- DS2TA在CIFAR10、CIFAR100、CIFAR10-DVS和DVS-Gesture等数据集上取得了state-of-the-art的性能。
📝 摘要(中文)
本文提出了一种名为DS2TA的去噪脉冲Transformer,它具有衰减时空注意力机制,专为视觉应用设计。DS2TA引入了一种新的脉冲衰减时空注意力机制,该机制考虑了在时间和空间中发生的输入激发相关性,从而充分利用了Transformer架构核心的脉冲神经元的计算能力。重要的是,DS2TA在不引入额外权重的情况下,实现了参数高效的时空注意力计算。DS2TA采用基于高效哈希图的非线性脉冲注意力去噪器,以增强脉冲注意力图的鲁棒性和表达能力。在多个广泛采用的静态图像和动态神经形态数据集上,DS2TA展示了最先进的性能。在4个时间步长上运行,DS2TA在CIFAR10上实现了94.92%的top-1准确率,在CIFAR100上实现了77.47%的top-1准确率,在使用10个时间步长时,在CIFAR10-DVS和DVS-Gesture上分别实现了79.1%和94.44%的准确率。
🔬 方法详解
问题定义:论文旨在解决脉冲神经网络在视觉任务中,特别是脉冲Transformer中,如何更有效地利用脉冲神经元的时空信息进行特征提取和表示的问题。现有脉冲Transformer未能充分挖掘脉冲神经元在时间和空间上的计算潜力,导致性能受限。
核心思路:论文的核心思路是引入一种衰减时空注意力机制,该机制能够同时考虑输入脉冲在时间和空间上的相关性。通过这种方式,模型可以更好地捕捉脉冲神经元之间的交互,从而提升特征表达能力。此外,利用哈希图进行非线性去噪,增强注意力图的鲁棒性。
技术框架:DS2TA的整体架构基于Transformer,但核心在于其改进的注意力机制。主要模块包括:脉冲嵌入层(将输入转换为脉冲序列)、衰减时空注意力模块(计算时空注意力权重)、哈希图去噪器(增强注意力图的鲁棒性)和分类器。整个流程是:输入图像/事件数据 -> 脉冲嵌入 -> 多层衰减时空注意力模块 -> 哈希图去噪 -> 分类。
关键创新:最重要的技术创新点在于衰减时空注意力机制。与传统注意力机制不同,该机制不仅考虑了空间上的关系,还考虑了时间上的脉冲激发模式。通过衰减因子,可以控制不同时间步长的信息贡献,从而更好地适应动态神经形态数据的特性。此外,使用哈希图进行非线性去噪也是一个创新点,可以有效地去除噪声并增强注意力图的表达能力。
关键设计:衰减时空注意力机制的关键在于衰减因子的设计,具体形式未知,但其作用是调节不同时间步长的信息权重。哈希图去噪器的具体实现细节未知,但其目标是增强注意力图的鲁棒性。论文中提到DS2TA在4个或10个时间步长上运行,这表明时间步长的选择对性能有影响。损失函数和网络结构的其他细节未知。
🖼️ 关键图片
📊 实验亮点
DS2TA在多个数据集上取得了显著的性能提升。在CIFAR10上,DS2TA实现了94.92%的top-1准确率,在CIFAR100上实现了77.47%的top-1准确率。在神经形态数据集CIFAR10-DVS和DVS-Gesture上,DS2TA分别实现了79.1%和94.44%的准确率。这些结果表明,DS2TA在静态图像和动态神经形态数据上都具有强大的性能。
🎯 应用场景
DS2TA具有广泛的应用前景,尤其是在需要低功耗和实时处理的视觉任务中。例如,它可以应用于无人驾驶、机器人导航、视频监控等领域。由于其基于脉冲神经网络的特性,DS2TA特别适合在神经形态硬件上部署,从而实现更高效的计算。未来,DS2TA可以进一步扩展到其他模态的数据处理,例如音频和文本。
📄 摘要(原文)
Vision Transformers (ViT) are current high-performance models of choice for various vision applications. Recent developments have given rise to biologically inspired spiking transformers that thrive in ultra-low power operations on neuromorphic hardware, however, without fully unlocking the potential of spiking neural networks. We introduce DS2TA, a Denoising Spiking transformer with attenuated SpatioTemporal Attention, designed specifically for vision applications. DS2TA introduces a new spiking attenuated spatiotemporal attention mechanism that considers input firing correlations occurring in both time and space, thereby fully harnessing the computational power of spiking neurons at the core of the transformer architecture. Importantly, DS2TA facilitates parameter-efficient spatiotemporal attention computation without introducing extra weights. DS2TA employs efficient hashmap-based nonlinear spiking attention denoisers to enhance the robustness and expressive power of spiking attention maps. DS2TA demonstrates state-of-the-art performances on several widely adopted static image and dynamic neuromorphic datasets. Operated over 4 time steps, DS2TA achieves 94.92% top-1 accuracy on CIFAR10 and 77.47% top-1 accuracy on CIFAR100, as well as 79.1% and 94.44% on CIFAR10-DVS and DVS-Gesture using 10 time steps.