VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation
作者: Mustafa Munir, Alex Zhang, Radu Marculescu
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-09-04
备注: Proceedings of the 2025 IEEE/CVF International Conference on Computer Vision (ICCV) Workshops
🔗 代码/项目: GITHUB
💡 一句话要点
VCMamba:融合卷积与多向Mamba,实现高效视觉表征
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉骨干网络 卷积神经网络 状态空间模型 Mamba 全局上下文建模 局部特征提取 图像分类 语义分割
📋 核心要点
- 现有ViT和Mamba模型虽擅长全局建模和长序列处理,但在局部特征提取方面不如CNN。
- VCMamba融合CNN的局部特征提取能力和多向Mamba的全局建模优势,构建混合视觉骨干网络。
- 实验表明,VCMamba在ImageNet-1K和ADE20K上均优于现有模型,且参数量更少。
📝 摘要(中文)
近年来,视觉Transformer (ViT) 和状态空间模型 (SSM) 对卷积神经网络 (CNN) 在计算机视觉领域的统治地位提出了挑战。ViT擅长捕获全局上下文,而像Mamba这样的SSM为长序列提供了线性复杂度,但它们在捕获细粒度的局部特征方面不如CNN有效。相反,CNN具有强大的局部特征归纳偏置,但缺乏Transformer和Mamba的全局推理能力。为了弥合这一差距,我们引入了VCMamba,这是一种新颖的视觉骨干网络,集成了CNN和多向Mamba SSM的优势。VCMamba采用卷积stem和具有卷积块的分层结构,以提取丰富的局部特征。这些卷积块随后由包含多向Mamba块的后续阶段处理,旨在有效地建模长程依赖和全局上下文。这种混合设计允许卓越的特征表示,同时保持相对于图像分辨率的线性复杂度。我们在ImageNet-1K分类和ADE20K语义分割上通过大量实验证明了VCMamba的有效性。我们的VCMamba-B在ImageNet-1K上实现了82.6%的top-1准确率,超过PlainMamba-L3 0.3%,参数减少了37%,并且超过Vision GNN-B 0.3%,参数减少了64%。此外,VCMamba-B在ADE20K上获得了47.1 mIoU,超过EfficientFormer-L7 2.0 mIoU,同时参数减少了62%。代码可在https://github.com/Wertyuui345/VCMamba 获取。
🔬 方法详解
问题定义:论文旨在解决现有视觉模型在局部特征和全局上下文建模之间存在的trade-off问题。现有方法,如CNN,擅长局部特征提取,但缺乏全局推理能力;而ViT和Mamba等模型则擅长全局建模,但在局部特征提取方面表现不足。
核心思路:VCMamba的核心思路是将CNN和多向Mamba SSM的优势结合起来,利用CNN提取局部特征,利用Mamba建模长程依赖和全局上下文。通过这种混合架构,VCMamba能够同时捕获图像的局部细节和全局结构。
技术框架:VCMamba的整体架构包括以下几个主要模块:1) 卷积Stem:用于提取初始的局部特征。2) 分层结构:包含多个阶段,早期阶段使用卷积块提取丰富的局部特征,后续阶段使用多向Mamba块建模长程依赖和全局上下文。3) 多向Mamba块:是VCMamba的关键组成部分,用于在多个方向上建模序列依赖关系。
关键创新:VCMamba最重要的技术创新点在于将卷积和多向Mamba SSM集成到一个统一的框架中。与现有方法相比,VCMamba能够更有效地利用CNN的局部特征提取能力和Mamba的全局建模能力,从而实现更好的性能。此外,多向Mamba块的设计也是一个关键创新,它允许模型在多个方向上建模序列依赖关系,从而更好地捕获图像的全局结构。
关键设计:VCMamba的关键设计包括:1) 卷积Stem的结构和参数设置。2) 分层结构中卷积块和多向Mamba块的比例和配置。3) 多向Mamba块的具体实现细节,例如状态空间模型的参数设置和方向选择策略。4) 损失函数的设计,用于优化模型的训练。
🖼️ 关键图片
📊 实验亮点
VCMamba-B在ImageNet-1K上实现了82.6%的top-1准确率,超过PlainMamba-L3 0.3%,参数减少了37%,超过Vision GNN-B 0.3%,参数减少了64%。在ADE20K上获得了47.1 mIoU,超过EfficientFormer-L7 2.0 mIoU,同时参数减少了62%。这些结果表明,VCMamba在性能和效率方面均优于现有模型。
🎯 应用场景
VCMamba作为一种通用的视觉骨干网络,可以广泛应用于各种计算机视觉任务,例如图像分类、目标检测、语义分割等。其高效的特征表示能力和线性复杂度使其在资源受限的设备上也能实现高性能,具有广阔的应用前景。未来,VCMamba有望推动计算机视觉技术在自动驾驶、智能安防、医疗影像分析等领域的应用。
📄 摘要(原文)
Recent advances in Vision Transformers (ViTs) and State Space Models (SSMs) have challenged the dominance of Convolutional Neural Networks (CNNs) in computer vision. ViTs excel at capturing global context, and SSMs like Mamba offer linear complexity for long sequences, yet they do not capture fine-grained local features as effectively as CNNs. Conversely, CNNs possess strong inductive biases for local features but lack the global reasoning capabilities of transformers and Mamba. To bridge this gap, we introduce \textit{VCMamba}, a novel vision backbone that integrates the strengths of CNNs and multi-directional Mamba SSMs. VCMamba employs a convolutional stem and a hierarchical structure with convolutional blocks in its early stages to extract rich local features. These convolutional blocks are then processed by later stages incorporating multi-directional Mamba blocks designed to efficiently model long-range dependencies and global context. This hybrid design allows for superior feature representation while maintaining linear complexity with respect to image resolution. We demonstrate VCMamba's effectiveness through extensive experiments on ImageNet-1K classification and ADE20K semantic segmentation. Our VCMamba-B achieves 82.6% top-1 accuracy on ImageNet-1K, surpassing PlainMamba-L3 by 0.3% with 37% fewer parameters, and outperforming Vision GNN-B by 0.3% with 64% fewer parameters. Furthermore, VCMamba-B obtains 47.1 mIoU on ADE20K, exceeding EfficientFormer-L7 by 2.0 mIoU while utilizing 62% fewer parameters. Code is available at https://github.com/Wertyuui345/VCMamba.