SF-Mamba: Rethinking State Space Model for Vision

作者: Masakazu Yoshimura, Teruaki Hayashi, Yuki Hoshino, Wei-Yao Wang, Takeshi Ohashi

分类: cs.CV, cs.AI

发布日期: 2026-03-17

备注: 21 pages

💡 一句话要点

SF-Mamba：面向视觉任务，通过辅助patch交换和批量折叠，提升Mamba模型的效率和性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉Mamba 状态空间模型 图像分类 目标检测 语义分割 双向信息流 GPU并行 辅助patch交换

📋 核心要点

Vision Transformer计算复杂度高，Mamba模型虽有循环扫描的效率优势，但缺乏图像块间的非因果交互。
SF-Mamba通过辅助patch交换实现双向信息流编码，并利用批量折叠与周期性状态重置提升GPU并行效率。
实验表明，SF-Mamba在图像分类、目标检测和分割任务上均超越现有方法，并提升了模型吞吐量。

📝 摘要（中文）

近年来，Mamba模型在视觉领域取得了进展，旨在替代受二次复杂度困扰的Vision Transformers (ViTs)。Mamba的循环扫描机制虽然提供了计算效率，但本质上限制了图像块之间的非因果交互。先前的工作试图通过各种多扫描策略来解决这一限制；然而，由于次优的扫描设计和频繁的数据重排，这些方法效率低下。此外，Mamba在视觉任务中常用的短token长度下，计算速度相对较慢。为了追求真正高效的视觉编码器，我们重新思考了视觉扫描操作和Mamba的计算效率。为此，我们提出了SF-Mamba，一种新型视觉Mamba，包含两个关键提议：辅助patch交换，用于在单向扫描下编码双向信息流；以及批量折叠与周期性状态重置，用于高级GPU并行。在图像分类、目标检测以及实例和语义分割上的大量实验一致表明，我们提出的SF-Mamba显著优于最先进的基线，同时提高了不同模型尺寸的吞吐量。我们将在发布后公开源代码。

🔬 方法详解

问题定义：现有基于Mamba的视觉模型，虽然尝试通过多扫描策略解决非因果交互问题，但存在扫描设计次优和数据重排频繁导致的效率低下问题。此外，Mamba在短token长度下计算速度较慢，限制了其在视觉任务中的应用。

核心思路：SF-Mamba的核心思路是重新设计Mamba模型的扫描操作，使其既能高效地编码双向信息流，又能充分利用GPU的并行计算能力。通过辅助patch交换，在单向扫描中模拟双向交互；通过批量折叠和周期性状态重置，提高GPU的利用率。

技术框架：SF-Mamba主要包含两个核心模块：辅助patch交换模块和批量折叠模块。辅助patch交换模块通过在扫描过程中交换相邻patch的位置，使得模型能够同时感知来自两个方向的信息。批量折叠模块将输入数据分成多个批次，并在每个批次内部进行状态重置，从而实现更高效的GPU并行计算。

关键创新：SF-Mamba的关键创新在于：1) 提出了辅助patch交换机制，有效解决了Mamba模型在视觉任务中缺乏双向信息交互的问题。2) 引入了批量折叠和周期性状态重置，显著提升了Mamba模型的GPU并行计算效率。与现有方法相比，SF-Mamba在保证性能的同时，显著提高了计算效率。

关键设计：辅助patch交换的具体实现方式是，对于每个扫描步骤，以一定的概率交换当前patch和其相邻patch的位置。批量折叠模块的关键在于选择合适的批次大小和状态重置周期，以平衡计算效率和模型性能。具体的参数设置需要根据不同的任务和数据集进行调整。损失函数方面，论文采用标准的交叉熵损失函数进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SF-Mamba在图像分类、目标检测和实例分割等任务上均取得了显著的性能提升。例如，在ImageNet图像分类任务上，SF-Mamba的准确率超过了现有SOTA模型，同时吞吐量也得到了显著提高。在COCO目标检测任务上，SF-Mamba也取得了 comparable 的结果，同时保持了更高的计算效率。

🎯 应用场景

SF-Mamba具有广泛的应用前景，可应用于图像分类、目标检测、语义分割等多种视觉任务。其高效的计算性能使其特别适用于资源受限的场景，如移动设备和嵌入式系统。未来，SF-Mamba有望成为视觉领域中一种重要的基础模型，推动相关技术的发展。

📄 摘要（原文）

The realm of Mamba for vision has been advanced in recent years to strike for the alternatives of Vision Transformers (ViTs) that suffer from the quadratic complexity. While the recurrent scanning mechanism of Mamba offers computational efficiency, it inherently limits non-causal interactions between image patches. Prior works have attempted to address this limitation through various multi-scan strategies; however, these approaches suffer from inefficiencies due to suboptimal scan designs and frequent data rearrangement. Moreover, Mamba exhibits relatively slow computational speed under short token lengths, commonly used in visual tasks. In pursuit of a truly efficient vision encoder, we rethink the scan operation for vision and the computational efficiency of Mamba. To this end, we propose SF-Mamba, a novel visual Mamba with two key proposals: auxiliary patch swapping for encoding bidirectional information flow under an unidirectional scan and batch folding with periodic state reset for advanced GPU parallelism. Extensive experiments on image classification, object detection, and instance and semantic segmentation consistently demonstrate that our proposed SF-Mamba significantly outperforms state-of-the-art baselines while improving throughput across different model sizes. We will release the source code after publication.

SF-Mamba: Rethinking State Space Model for Vision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理