Spiking Vision Transformer with Saccadic Attention
作者: Shuai Wang, Malu Zhang, Dehao Zhang, Ammar Belatreche, Yichen Xiao, Yu Liang, Yimeng Shan, Qian Sun, Enqi Zhang, Yang Yang
分类: cs.CV, cs.AI
发布日期: 2025-02-18
备注: Published as a conference paper at ICLR 2025
💡 一句话要点
提出基于生物性注视机制的脉冲视觉变换器以解决性能不足问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 脉冲神经网络 视觉变换器 自注意力机制 生物性注视 边缘计算 能效优化 时空交互
📋 核心要点
- 现有SNN基础的视觉变换器在性能上与ANN存在显著差距,主要由于自注意力机制与脉冲序列的不匹配。
- 本文提出了脉冲自注意力方法(SSSA),通过生物性注视机制的启发,改善了空间相关性和时间交互。
- 实验结果表明,SNN-ViT在多项视觉任务中达到了最先进的性能,并且计算复杂度为线性,显示出其在边缘应用中的优势。
📝 摘要(中文)
脉冲神经网络(SNN)与视觉变换器(ViT)的结合在边缘视觉应用中展现出能效与高性能的潜力。然而,SNN基础的ViT与其人工神经网络(ANN)对比仍存在显著性能差距。本文分析了SNN基础ViT性能受限的原因,发现传统自注意力机制与时空脉冲序列之间存在不匹配,导致空间相关性降低和时间交互受限。为此,本文引入了灵感来自生物性注视机制的创新性脉冲自注意力方法(SSSA),通过新颖的脉冲分布方法评估查询与键对之间的相关性,并通过动态聚焦选定视觉区域的时间交互模块显著提升整体场景理解。基于SSSA机制,本文开发了SNN基础的视觉变换器(SNN-ViT),在多项视觉任务中表现出色,展现出其在功耗敏感的边缘视觉应用中的潜力。
🔬 方法详解
问题定义:本文旨在解决SNN基础视觉变换器在性能上的不足,特别是自注意力机制与时空脉冲序列之间的不匹配问题,这导致了空间相关性降低和时间交互受限。
核心思路:论文提出的脉冲自注意力方法(SSSA)灵感来源于生物性注视机制,旨在通过新颖的脉冲分布方法和动态聚焦模块来提升SNN基础ViT的性能。
技术框架:整体架构包括两个主要模块:脉冲分布方法用于评估查询与键对的相关性,动态聚焦模块用于在每个时间步聚焦于选定的视觉区域,从而增强场景理解。
关键创新:SSSA方法是本文的核心创新点,它通过生物性注视机制的启发,解决了传统自注意力机制在SNN中的应用问题,显著提升了性能。
关键设计:在设计中,SSSA采用了新的脉冲分布评估方法,设置了动态聚焦的时间交互模块,并在网络结构中优化了参数设置和损失函数,以提高整体效率与效果。
🖼️ 关键图片
📊 实验亮点
实验结果显示,SNN-ViT在多项视觉任务中达到了最先进的性能,相较于基线方法,性能提升显著,且计算复杂度保持在线性水平,展现了其在边缘视觉应用中的强大潜力。
🎯 应用场景
该研究的潜在应用领域包括智能监控、自动驾驶、机器人视觉等边缘计算场景。通过提升SNN基础视觉变换器的性能,能够在功耗受限的环境中实现高效的视觉处理,具有重要的实际价值和未来影响。
📄 摘要(原文)
The combination of Spiking Neural Networks (SNNs) and Vision Transformers (ViTs) holds potential for achieving both energy efficiency and high performance, particularly suitable for edge vision applications. However, a significant performance gap still exists between SNN-based ViTs and their ANN counterparts. Here, we first analyze why SNN-based ViTs suffer from limited performance and identify a mismatch between the vanilla self-attention mechanism and spatio-temporal spike trains. This mismatch results in degraded spatial relevance and limited temporal interactions. To address these issues, we draw inspiration from biological saccadic attention mechanisms and introduce an innovative Saccadic Spike Self-Attention (SSSA) method. Specifically, in the spatial domain, SSSA employs a novel spike distribution-based method to effectively assess the relevance between Query and Key pairs in SNN-based ViTs. Temporally, SSSA employs a saccadic interaction module that dynamically focuses on selected visual areas at each timestep and significantly enhances whole scene understanding through temporal interactions. Building on the SSSA mechanism, we develop a SNN-based Vision Transformer (SNN-ViT). Extensive experiments across various visual tasks demonstrate that SNN-ViT achieves state-of-the-art performance with linear computational complexity. The effectiveness and efficiency of the SNN-ViT highlight its potential for power-critical edge vision applications.