Vision SmolMamba: Spike-Guided Token Pruning for Energy-Efficient Spiking State-Space Vision Models

📄 arXiv: 2604.25570v1 📥 PDF

作者: Dewei Bai, Hongxiang Peng, Yunyun Zeng, Ziyu Zhang, Hong Qu, Yi Zhang

分类: cs.CV

发布日期: 2026-04-28


💡 一句话要点

提出Vision SmolMamba,通过脉冲引导的token剪枝实现高效脉冲状态空间视觉模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 脉冲神经网络 状态空间模型 Token剪枝 能源效率 视觉建模 事件驱动 长程依赖

📋 核心要点

  1. 脉冲Transformer在视觉建模中表现出潜力,但其二次token交互与脉冲神经计算的稀疏性和事件驱动特性不符。
  2. Vision SmolMamba通过脉冲引导的时空Token剪枝器(SST-TP)估计token重要性,移除冗余token,实现高效的长程建模。
  3. 实验表明,Vision SmolMamba在精度和效率之间取得了更好的平衡,并显著降低了能源消耗,优于现有脉冲Transformer。

📝 摘要(中文)

本文提出Vision SmolMamba,一种节能的脉冲状态空间架构,它将脉冲驱动的动态特性与线性时间选择性递归相结合。核心思想是脉冲引导的时空Token剪枝器(SST-TP),它利用脉冲激活强度和首次脉冲延迟来评估token的重要性。该机制在保留显著时空信息的同时,逐步移除冗余token,从而实现token稀疏性的有效扩展。基于此,SmolMamba模块将脉冲事件直接融入双向状态空间递归中,形成用于高效长程建模的脉冲状态空间视觉骨干网络。在ImageNet-1K、CIFAR10/100、CIFAR10-DVS和DVS128 Gesture等静态和基于事件的基准测试中,大量实验表明Vision SmolMamba始终如一地实现了卓越的精度-效率权衡。特别是,与之前的脉冲Transformer基线和脉冲Mamba变体相比,它将估计的能源成本降低了至少1.5倍,同时保持了具有竞争力的或更高的精度。这些结果表明,将脉冲引导的token稀疏性与状态空间建模相结合,为脉冲视觉系统提供了一种可扩展且节能的范例。

🔬 方法详解

问题定义:论文旨在解决脉冲Transformer在视觉建模中存在的效率问题。现有脉冲Transformer的token交互是二次方的,这与脉冲神经网络的稀疏性和事件驱动特性相悖,导致计算冗余和能源效率低下。因此,需要一种更高效的脉冲视觉模型,能够在保持或提高精度的同时,显著降低能源消耗。

核心思路:论文的核心思路是将脉冲神经网络的事件驱动特性与状态空间模型相结合,利用脉冲的激活强度和首次脉冲延迟来引导token剪枝,从而实现token稀疏性。通过移除冗余token,减少计算量,提高能源效率。同时,利用状态空间模型进行长程建模,保持模型的表达能力。

技术框架:Vision SmolMamba的整体架构包括:1) 脉冲输入层,将视觉数据转换为脉冲序列;2) 脉冲引导的时空Token剪枝器(SST-TP),用于估计token重要性并移除冗余token;3) SmolMamba块,将脉冲事件直接融入双向状态空间递归中,进行长程建模;4) 输出层,将状态空间模型的输出转换为最终的预测结果。整个流程是端到端可训练的。

关键创新:论文最重要的技术创新点是提出了脉冲引导的时空Token剪枝器(SST-TP)。与传统的token剪枝方法不同,SST-TP不仅考虑了token的激活强度,还考虑了首次脉冲延迟。这使得SST-TP能够更准确地估计token的重要性,并保留更重要的时空信息。此外,将脉冲事件直接融入状态空间模型中,也避免了将脉冲序列转换为连续信号的损失。

关键设计:SST-TP的关键设计包括:1) 使用可学习的权重来组合脉冲激活强度和首次脉冲延迟,以估计token的重要性;2) 使用动态阈值来确定要移除的token数量,该阈值可以根据模型的性能进行调整;3) SmolMamba块的关键设计包括:使用双向状态空间模型来捕获长程依赖关系,并使用门控机制来控制信息的流动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Vision SmolMamba在ImageNet-1K、CIFAR10/100、CIFAR10-DVS和DVS128 Gesture等数据集上取得了优异的性能。与之前的脉冲Transformer基线和脉冲Mamba变体相比,Vision SmolMamba在保持或提高精度的同时,将估计的能源成本降低了至少1.5倍。例如,在ImageNet-1K上,Vision SmolMamba的精度与最先进的脉冲Transformer相当,但能源消耗显著降低。

🎯 应用场景

Vision SmolMamba在低功耗视觉应用中具有广泛的应用前景,例如移动机器人、无人机、智能监控和边缘计算设备。其高能效特性使其能够在资源受限的环境中部署复杂的视觉算法,实现实时目标检测、图像分类和场景理解等任务。未来,该研究可以进一步扩展到其他模态,例如音频和文本,构建更通用的节能型人工智能系统。

📄 摘要(原文)

Spiking Transformers have shown strong potential for long-range visual modeling through spike-driven self-attention. However, their quadratic token interactions remain fundamentally misaligned with the sparse and event-driven nature of spiking neural computation. To address this limitation, we propose Vision SmolMamba, an energy-efficient spiking state-space architecture that integrates spike-driven dynamics with linear-time selective recurrence. The key idea is a Spike-Guided Spatio-Temporal Token Pruner (SST-TP), which estimates token importance using both spike activation strength and first-spike latency. This mechanism progressively removes redundant tokens while preserving salient spatio-temporal information, enabling efficient scaling with token sparsity. Based on this mechanism, the proposed SmolMamba block incorporates spike events directly into bidirectional state-space recurrence, forming a spiking state-space vision backbone for efficient long-range modeling. Extensive experiments on both static and event-based benchmarks, including ImageNet-1K, CIFAR10/100, CIFAR10-DVS, and DVS128 Gesture, demonstrate that Vision SmolMamba consistently achieves superior accuracy-efficiency trade-offs. In particular, it reduces the estimated energy cost by at least 1.5x compared with prior spiking Transformer baselines and a Spiking Mamba variant while maintaining competitive or improved accuracy. These results demonstrate that combining spike-guided token sparsity with state-space modeling offers a scalable and energy-efficient paradigm for spiking vision systems.