Scaling Vision Mamba Across Resolutions via Fractal Traversal

📄 arXiv: 2505.14062v2 📥 PDF

作者: Bo Li, Haoke Xiao, Lv Tang

分类: cs.CV

发布日期: 2025-05-20 (更新: 2025-08-13)


💡 一句话要点

FractalMamba++:提出基于分形遍历的视觉Mamba,提升跨分辨率适应性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉Mamba 分形遍历 Hilbert曲线 跨状态路由 高分辨率图像处理 空间局部性 序列建模

📋 核心要点

  1. 现有Vision Mamba在处理视觉任务时,2D到1D patch序列化破坏了空间连续性,限制了模型跨分辨率的泛化能力。
  2. FractalMamba++利用Hilbert曲线进行分形patch序列化,保持空间局部性,并通过跨状态路由增强全局上下文传播。
  3. 实验表明,FractalMamba++在图像分类、语义分割和目标检测等任务中,显著优于之前的Mamba骨干网络,尤其是在高分辨率下。

📝 摘要(中文)

Vision Mamba作为Transformer的一种有前景的替代方案,最近崭露头角,它在序列长度上具有线性复杂度,同时保持了强大的建模能力。然而,由于2D到1D patch序列化以及跨输入分辨率的弱可扩展性方面的挑战,它在视觉输入上的应用受到阻碍。现有的序列化策略(如光栅扫描)会破坏局部空间连续性,并限制模型跨尺度泛化的能力。在本文中,我们提出了FractalMamba++,这是一个鲁棒的视觉骨干网络,它利用基于分形的patch序列化(通过Hilbert曲线)来保持空间局部性,并实现无缝的分辨率适应性。为了解决高分辨率输入中的长程依赖衰减问题,我们进一步引入了一种跨状态路由(CSR)机制,该机制通过选择性状态重用来增强全局上下文传播。此外,我们提出了一个位置关系捕获(PRC)模块,以恢复被曲线拐点破坏的局部邻接关系。在包括图像分类、语义分割和目标检测在内的各种下游任务中进行的大量实验表明,FractalMamba++始终优于以前的基于Mamba的骨干网络,尤其是在高分辨率设置下,性能提升显著。

🔬 方法详解

问题定义:Vision Mamba在处理视觉任务时,需要将2D图像patch序列化为1D序列。传统的光栅扫描方式会破坏图像的局部空间连续性,导致模型难以捕捉图像的局部结构信息,并且限制了模型在不同分辨率图像上的泛化能力。此外,在高分辨率图像中,长程依赖关系容易衰减,影响模型的性能。

核心思路:FractalMamba++的核心思路是利用Hilbert曲线进行分形patch序列化,以保持图像的局部空间连续性。Hilbert曲线是一种空间填充曲线,能够将2D空间映射到1D空间,同时尽可能地保持相邻点在原始空间中的邻近关系。此外,论文还提出了跨状态路由(CSR)机制,以增强全局上下文传播,缓解长程依赖衰减问题。

技术框架:FractalMamba++的整体架构包括以下几个主要模块:1) 分形patch序列化模块:使用Hilbert曲线将2D图像patch序列化为1D序列。2) Mamba模块:使用Mamba模型进行序列建模。3) 跨状态路由(CSR)模块:增强全局上下文传播。4) 位置关系捕获(PRC)模块:恢复被曲线拐点破坏的局部邻接关系。整个流程是,输入图像首先经过分形patch序列化,然后输入到一系列Mamba模块中进行特征提取,CSR模块和PRC模块辅助Mamba模块更好地建模图像信息,最后输出特征用于下游任务。

关键创新:FractalMamba++的关键创新在于以下几点:1) 提出了一种基于Hilbert曲线的分形patch序列化方法,能够更好地保持图像的局部空间连续性。2) 提出了跨状态路由(CSR)机制,能够增强全局上下文传播,缓解长程依赖衰减问题。3) 提出了位置关系捕获(PRC)模块,能够恢复被曲线拐点破坏的局部邻接关系。这些创新使得FractalMamba++能够更好地处理高分辨率图像,并在各种视觉任务中取得更好的性能。

关键设计:CSR模块的关键设计在于选择性状态重用。具体来说,CSR模块会根据当前状态的重要性,选择性地重用之前的状态,从而增强全局上下文传播。PRC模块的关键设计在于利用相对位置编码来恢复局部邻接关系。具体来说,PRC模块会根据patch之间的相对位置,对Mamba模块的输出进行调整,从而恢复被曲线拐点破坏的局部邻接关系。具体的参数设置和网络结构细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FractalMamba++在图像分类、语义分割和目标检测等任务中均取得了显著的性能提升。例如,在ImageNet图像分类任务中,FractalMamba++相比于之前的Mamba骨干网络,Top-1准确率提升了1-2个百分点。在高分辨率语义分割任务中,FractalMamba++的mIoU指标提升了2-3个百分点。这些结果表明,FractalMamba++能够有效地利用图像的局部空间信息和全局上下文信息,从而提高模型的性能。

🎯 应用场景

FractalMamba++具有广泛的应用前景,可应用于图像分类、目标检测、语义分割等多种视觉任务。尤其是在需要处理高分辨率图像的场景下,如遥感图像分析、医学图像诊断等,FractalMamba++能够发挥其优势,提供更准确、更可靠的结果。该研究的成果有助于推动视觉领域的发展,并为相关应用提供更强大的技术支持。

📄 摘要(原文)

Vision Mamba has recently emerged as a promising alternative to Transformer-based architectures, offering linear complexity in sequence length while maintaining strong modeling capacity. However, its adaptation to visual inputs is hindered by challenges in 2D-to-1D patch serialization and weak scalability across input resolutions. Existing serialization strategies such as raster scanning disrupt local spatial continuity and limit the model's ability to generalize across scales. In this paper, we propose FractalMamba++, a robust vision backbone that leverages fractal-based patch serialization via Hilbert curves to preserve spatial locality and enable seamless resolution adaptability. To address long-range dependency fading in high-resolution inputs, we further introduce a Cross-State Routing (CSR) mechanism that enhances global context propagation through selective state reuse. Additionally, we propose a Positional-Relation Capture (PRC) module to recover local adjacency disrupted by curve inflection points. Extensive experiments across diverse downstream tasks, including image classification, semantic segmentation and object detection, demonstrate that FractalMamba++ consistently outperforms previous Mamba-based backbones, with particularly notable gains under high-resolution settings.