HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet
作者: Badri N. Patro, Vijay S. Agneeswaran
分类: cs.CV, cs.LG, eess.IV
发布日期: 2026-04-16
💡 一句话要点
HAMSA:通过SpectralPulseNet实现无扫描的视觉状态空间模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 视觉状态空间模型 频谱域建模 无扫描 频率门控 自适应频谱调制
📋 核心要点
- 现有视觉SSM依赖扫描策略处理2D图像,导致计算开销大、架构复杂。
- HAMSA提出一种无扫描SSM,直接在频谱域操作,简化核参数化,引入自适应频谱调制。
- 实验表明,HAMSA在ImageNet-1K上达到SOTA精度,推理速度更快,内存和能量消耗更低。
📝 摘要(中文)
现有的视觉状态空间模型(SSM),如Vim、VMamba和SiMBA,依赖于复杂的扫描策略来适配序列SSM以处理2D图像,这引入了计算开销和架构复杂性。我们提出了HAMSA,一种直接在频谱域中运行的无扫描SSM。HAMSA引入了三个关键创新:(1)简化的核参数化——使用单个高斯初始化的复数核代替传统的(A, B, C)矩阵,消除了离散化不稳定性;(2)SpectralPulseNet (SPN)——一种输入相关的频率门控机制,能够实现自适应频谱调制;(3)Spectral Adaptive Gating Unit (SAGU)——基于幅度的门控,用于稳定频率域中的梯度流动。通过利用基于FFT的卷积,HAMSA消除了序列扫描,同时实现了O(L log L)的复杂度,并具有卓越的简洁性和效率。在ImageNet-1K上,HAMSA达到了85.7%的top-1准确率(SSM中的最先进水平),推理速度比Transformer快2.2倍(DeiT-S为4.2ms,而HAMSA为9.2ms),并且比基于扫描的SSM快1.4-1.9倍,同时使用更少的内存(2.1GB vs 3.2-4.5GB)和能量(12.5J vs 18-25J)。HAMSA在迁移学习和密集预测任务中表现出强大的泛化能力。
🔬 方法详解
问题定义:现有视觉状态空间模型(SSM)在处理2D图像时,需要通过复杂的扫描策略将序列模型适配到图像数据上。这种扫描方式引入了额外的计算负担,并且增加了模型的架构复杂性,限制了模型的效率和可扩展性。
核心思路:HAMSA的核心思路是在频谱域直接进行状态空间建模,避免了在空间域进行扫描操作。通过将图像转换到频谱域,利用FFT进行高效卷积,从而降低计算复杂度。同时,通过引入输入相关的频率门控机制和幅度门控单元,增强模型的表达能力和梯度稳定性。
技术框架:HAMSA的整体框架包括以下几个主要步骤:首先,使用FFT将输入图像转换到频谱域。然后,通过简化的核参数化方法,利用单个高斯初始化的复数核进行频谱域的状态更新。接着,使用SpectralPulseNet (SPN)进行输入相关的频率门控,实现自适应频谱调制。最后,通过Spectral Adaptive Gating Unit (SAGU)稳定梯度流动,并将频谱域的特征转换回空间域进行后续处理。
关键创新:HAMSA的关键创新在于以下三点:一是提出了简化的核参数化方法,使用单个复数核代替传统的(A, B, C)矩阵,降低了模型参数量和计算复杂度;二是引入了SpectralPulseNet (SPN),实现输入相关的频率门控,增强了模型的自适应能力;三是提出了Spectral Adaptive Gating Unit (SAGU),稳定了频率域中的梯度流动,提高了模型的训练效率。
关键设计:HAMSA的关键设计包括:使用高斯初始化复数核,避免离散化不稳定性;SpectralPulseNet采用sigmoid函数进行频率门控,实现平滑的频谱调制;Spectral Adaptive Gating Unit基于幅度进行门控,保证梯度稳定流动。此外,HAMSA利用FFT进行卷积,实现了O(L log L)的计算复杂度。
🖼️ 关键图片
📊 实验亮点
HAMSA在ImageNet-1K图像分类任务上取得了85.7%的top-1准确率,达到了SSM模型中的SOTA水平。与Transformer模型DeiT-S相比,HAMSA的推理速度提高了2.2倍(4.2ms vs 9.2ms),同时内存消耗降低了34% (2.1GB vs 3.2GB),能量消耗降低了31% (12.5J vs 18J)。与基于扫描的SSM相比,HAMSA的推理速度也提升了1.4-1.9倍,展现了显著的性能优势。
🎯 应用场景
HAMSA具有广泛的应用前景,包括图像分类、目标检测、图像分割等计算机视觉任务。其高效的计算性能和较低的资源消耗使其非常适合部署在移动设备和嵌入式系统上。此外,HAMSA的频谱域建模方法也为其他信号处理任务提供了新的思路,例如音频处理和无线通信。
📄 摘要(原文)
Vision State Space Models (SSMs) like Vim, VMamba, and SiMBA rely on complex scanning strategies to adapt sequential SSMs to process 2D images, introducing computational overhead and architectural complexity. We propose HAMSA, a scanning-free SSM operating directly in the spectral domain. HAMSA introduces three key innovations: (1) simplified kernel parameterization-a single Gaussian-initialized complex kernel replacing traditional (A, B, C) matrices, eliminating discretization instabilities; (2) SpectralPulseNet (SPN)-an input-dependent frequency gating mechanism enabling adaptive spectral modulation; and (3) Spectral Adaptive Gating Unit (SAGU)-magnitude-based gating for stable gradient flow in the frequency domain. By leveraging FFT-based convolution, HAMSA eliminates sequential scanning while achieving O(L log L) complexity with superior simplicity and efficiency. On ImageNet-1K, HAMSA reaches 85.7% top-1 accuracy (state-of-the-art among SSMs), with 2.2 X faster inference than transformers (4.2ms vs 9.2ms for DeiT-S) and 1.4-1.9X speedup over scanning-based SSMs, while using less memory (2.1GB vs 3.2-4.5GB) and energy (12.5J vs 18-25J). HAMSA demonstrates strong generalization across transfer learning and dense prediction tasks.