Mamba-Adaptor: State Space Model Adaptor for Visual Recognition

📄 arXiv: 2505.12685v1 📥 PDF

作者: Fei Xie, Jiahao Nie, Yujin Tang, Wenkang Zhang, Hongshen Zhao

分类: cs.CV

发布日期: 2025-05-19

备注: CVPR paper


💡 一句话要点

提出Mamba-Adaptor,解决Mamba在视觉识别中全局上下文建模、长程依赖和空间结构建模的不足。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 视觉识别 Mamba 适配器 长程依赖 空间建模 空洞卷积 迁移学习

📋 核心要点

  1. Mamba等状态空间模型在视觉建模中表现出色,但因果计算、长程遗忘和空间结构建模不足限制了其性能。
  2. Mamba-Adaptor通过Adaptor-T缓解长程遗忘,Adaptor-S增强空间建模,从而提升Mamba在视觉任务中的性能。
  3. 实验表明,Mamba-Adaptor在ImageNet和COCO等基准测试中取得了SOTA性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种简单而强大的视觉任务适配器Mamba-Adaptor,用于增强Mamba模型在视觉任务中的性能。Mamba-Adaptor包含两个功能模块:Adaptor-T和Adaptor-S。Adaptor-T通过预测模块选择一组可学习的位置作为记忆增强,以缓解长程遗忘问题。Adaptor-S由多尺度空洞卷积核组成,用于增强空间建模并将图像归纳偏置引入特征输出。这两个模块都可以扩大因果计算中的上下文建模,因为输出由不可访问的特征增强。我们探索了Mamba-Adaptor的三种用法:作为各种视觉任务的通用视觉骨干网络;作为提高预训练骨干网络性能的增强模块;以及作为一种高效的微调模块,用于调整基础模型以进行迁移学习任务。大量实验验证了Mamba-Adaptor在三种设置中的有效性。值得注意的是,我们的Mamba-Adaptor在ImageNet和COCO基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:Mamba等状态空间模型在视觉识别任务中面临三个主要问题:1) 因果计算无法访问全局上下文;2) 计算当前隐藏状态时存在长程遗忘;3) 由于转换后的序列输入,空间结构建模能力较弱。现有方法难以有效解决这些问题,导致Mamba在视觉任务中的性能受限。

核心思路:本文的核心思路是设计一个适配器(Adaptor),该适配器能够增强Mamba模型在视觉任务中的上下文建模能力,缓解长程遗忘问题,并提升空间结构建模能力。通过引入可学习的记忆增强和多尺度空洞卷积,使得Mamba能够更好地处理视觉信息。

技术框架:Mamba-Adaptor包含两个主要模块:Adaptor-T和Adaptor-S。Adaptor-T通过一个轻量级的预测模块,选择一组可学习的位置作为记忆增强,以缓解长程遗忘问题。Adaptor-S由多尺度空洞卷积核组成,用于增强空间建模,并将图像的归纳偏置引入到特征输出中。这两个模块共同作用,扩大了因果计算中的上下文建模范围。整体流程是将输入图像经过Mamba模型处理后,分别通过Adaptor-T和Adaptor-S进行增强,最终得到增强后的特征表示。

关键创新:Mamba-Adaptor的关键创新在于其针对Mamba模型在视觉任务中的局限性,设计了专门的适配器模块。Adaptor-T通过可学习的记忆增强来缓解长程遗忘,而Adaptor-S则通过多尺度空洞卷积来增强空间建模能力。这种针对性的设计使得Mamba能够更好地适应视觉任务,并取得更好的性能。与现有方法相比,Mamba-Adaptor更加轻量级和高效,并且能够与现有的预训练模型相结合。

关键设计:Adaptor-T的关键设计在于如何选择可学习的位置作为记忆增强。具体来说,通过一个轻量级的预测模块来预测哪些位置包含重要的信息,并将这些位置的特征作为记忆添加到隐藏状态中。Adaptor-S的关键设计在于多尺度空洞卷积核的选择。通过使用不同尺度的空洞卷积核,可以捕获不同尺度的空间信息,从而增强空间建模能力。此外,损失函数的设计也至关重要,需要平衡Adaptor-T和Adaptor-S的贡献,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mamba-Adaptor在ImageNet图像分类和COCO目标检测基准测试中取得了最先进的性能。具体来说,在ImageNet上,Mamba-Adaptor的Top-1准确率达到了新的高度。在COCO上,Mamba-Adaptor在目标检测和实例分割任务中均取得了显著的性能提升,超越了现有的基于Transformer的模型。

🎯 应用场景

Mamba-Adaptor可作为通用视觉骨干网络应用于图像分类、目标检测、语义分割等多种视觉任务。它还可以作为增强模块,提升现有预训练模型的性能。此外,Mamba-Adaptor还可用于迁移学习,通过高效的微调,将模型快速适应到新的任务和数据集上。该研究成果有望推动视觉识别技术的发展,并在智能安防、自动驾驶、医疗影像分析等领域发挥重要作用。

📄 摘要(原文)

Recent State Space Models (SSM), especially Mamba, have demonstrated impressive performance in visual modeling and possess superior model efficiency. However, the application of Mamba to visual tasks suffers inferior performance due to three main constraints existing in the sequential model: 1) Casual computing is incapable of accessing global context; 2) Long-range forgetting when computing the current hidden states; 3) Weak spatial structural modeling due to the transformed sequential input. To address these issues, we investigate a simple yet powerful vision task Adaptor for Mamba models, which consists of two functional modules: Adaptor-T and Adaptor-S. When solving the hidden states for SSM, we apply a lightweight prediction module Adaptor-T to select a set of learnable locations as memory augmentations to ease long-range forgetting issues. Moreover, we leverage Adapator-S, composed of multi-scale dilated convolutional kernels, to enhance the spatial modeling and introduce the image inductive bias into the feature output. Both modules can enlarge the context modeling in casual computing, as the output is enhanced by the inaccessible features. We explore three usages of Mamba-Adaptor: A general visual backbone for various vision tasks; A booster module to raise the performance of pretrained backbones; A highly efficient fine-tuning module that adapts the base model for transfer learning tasks. Extensive experiments verify the effectiveness of Mamba-Adaptor in three settings. Notably, our Mamba-Adaptor achieves state-of the-art performance on the ImageNet and COCO benchmarks.