Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

📄 arXiv: 2602.04170v1 📥 PDF

作者: Yi-Kuan Hsieh, Jun-Wei Hsieh, Xin li, Ming-Ching Chang, Yu-Chee Tseng

分类: cs.CV

发布日期: 2026-02-04

备注: 10 pages, 3 figures


💡 一句话要点

提出PRISMamba,通过环形扫描和通道过滤提升Vision SSMs的旋转鲁棒性和效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉状态空间模型 扫描顺序 旋转鲁棒性 通道过滤 图像分类 环形扫描 计算效率

📋 核心要点

  1. Vision SSMs依赖于将2D图像序列化为1D token序列,而扫描顺序对模型性能有显著影响,现有方法对此关注不足。
  2. PRISMamba通过将图像分割为同心环,在环内进行顺序无关的聚合,并通过径向SSM在环间传递信息,实现旋转鲁棒性。
  3. PRISMamba通过部分通道过滤,仅将关键通道送入循环环路径,其余通道走轻量级分支,在提升效率的同时保持或提升了精度。

📝 摘要(中文)

本文研究了视觉状态空间模型(Vision SSMs)中扫描顺序对性能的关键影响。作者发现,扫描顺序会改变空间邻接关系,破坏对象连续性,并加剧几何变换(如旋转)下的性能退化。为此,论文提出了Partial RIng Scan Mamba (PRISMamba),一种旋转鲁棒的遍历方法,它将图像分割成同心环,在每个环内执行与顺序无关的聚合,并通过一组短径向SSM在环之间传播上下文。此外,通过部分通道过滤进一步提高了效率,该方法仅将信息量最大的通道通过循环环路径传递,而其余通道保留在轻量级残差分支上。在ImageNet-1K上,PRISMamba以3.9G FLOPs和A100上的3,054 img/s实现了84.5%的Top-1准确率,在准确率和吞吐量方面均优于VMamba,同时所需的FLOPs更少。它还在旋转下保持了性能,而固定路径扫描则下降了1~2%。这些结果表明,扫描顺序设计以及通道过滤是Vision SSMs中准确性、效率和旋转鲁棒性的关键且未被充分探索的因素。

🔬 方法详解

问题定义:Vision SSMs在处理图像时需要将2D图像转换为1D序列,现有的方法通常采用固定的扫描顺序,如光栅扫描。这种固定扫描顺序对模型的性能有很大影响,尤其是在图像发生旋转等几何变换时,会导致空间邻接关系被打乱,对象连续性被破坏,从而降低模型的准确率和鲁棒性。

核心思路:PRISMamba的核心思路是设计一种对旋转不敏感的扫描方式,同时保持较高的计算效率。通过将图像分割成同心环,并在每个环内进行顺序无关的特征聚合,可以有效地减少旋转对空间关系的影响。此外,利用径向SSM在环之间传递上下文信息,保证了全局信息的有效利用。

技术框架:PRISMamba的整体架构包括以下几个主要模块:1) 环形分割:将输入图像分割成一系列同心环。2) 环内聚合:在每个环内,使用某种聚合操作(例如平均池化或最大池化)来提取环的特征,使得特征对环内的像素顺序不敏感。3) 径向SSM:使用一组短的径向SSM来在相邻的环之间传递上下文信息。4) 部分通道过滤:只选择信息量最大的通道通过环形扫描和径向SSM,其余通道通过一个轻量级的残差分支。

关键创新:PRISMamba的关键创新在于其环形扫描方式和部分通道过滤机制。环形扫描通过对旋转不敏感的环内聚合,提高了模型的旋转鲁棒性。部分通道过滤通过只处理关键通道,降低了计算复杂度,提高了模型的效率。与传统的固定扫描顺序相比,PRISMamba能够更好地保持空间信息,并减少几何变换的影响。

关键设计:在环形分割中,需要确定环的数量和环的宽度。在环内聚合中,可以选择不同的聚合操作,如平均池化、最大池化等。径向SSM的设计需要考虑SSM的层数和隐藏层大小。部分通道过滤需要确定选择多少比例的通道进行环形扫描。这些参数的选择需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRISMamba在ImageNet-1K数据集上取得了显著的性能提升,Top-1准确率达到84.5%,同时FLOPs仅为3.9G,在A100 GPU上的吞吐量达到3,054 img/s。与VMamba相比,PRISMamba在准确率和吞吐量方面均有所提升,同时所需的FLOPs更少。此外,PRISMamba在旋转变换下表现出更强的鲁棒性,性能下降幅度远小于固定路径扫描方法。

🎯 应用场景

PRISMamba在图像分类、目标检测、图像分割等计算机视觉任务中具有广泛的应用前景。其旋转鲁棒性使其在处理具有旋转变化的图像数据时具有优势,例如遥感图像分析、医学图像诊断等领域。此外,其高效的计算性能使其适用于资源受限的设备,例如移动设备和嵌入式系统。

📄 摘要(原文)

State Space Models (SSMs) have emerged as efficient alternatives to attention for vision tasks, offering lineartime sequence processing with competitive accuracy. Vision SSMs, however, require serializing 2D images into 1D token sequences along a predefined scan order, a factor often overlooked. We show that scan order critically affects performance by altering spatial adjacency, fracturing object continuity, and amplifying degradation under geometric transformations such as rotation. We present Partial RIng Scan Mamba (PRISMamba), a rotation-robust traversal that partitions an image into concentric rings, performs order-agnostic aggregation within each ring, and propagates context across rings through a set of short radial SSMs. Efficiency is further improved via partial channel filtering, which routes only the most informative channels through the recurrent ring pathway while keeping the rest on a lightweight residual branch. On ImageNet-1K, PRISMamba achieves 84.5% Top-1 with 3.9G FLOPs and 3,054 img/s on A100, outperforming VMamba in both accuracy and throughput while requiring fewer FLOPs. It also maintains performance under rotation, whereas fixed-path scans drop by 1~2%. These results highlight scan-order design, together with channel filtering, as a crucial, underexplored factor for accuracy, efficiency, and rotation robustness in Vision SSMs. Code will be released upon acceptance.