MambaVesselNet++: A Hybrid CNN-Mamba Architecture for Medical Image Segmentation
作者: Qing Xu, Yanming Chen, Yue Li, Ziyu Liu, Zhenye Lou, Yixuan Zhang, Xiangjian He
分类: cs.CV
发布日期: 2025-07-26
备注: Accepted by TOMM
🔗 代码/项目: GITHUB
💡 一句话要点
MambaVesselNet++:一种混合CNN-Mamba架构,用于医学图像分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 医学图像分割 Mamba CNN 长程依赖 混合架构 深度学习 计算机辅助诊断
📋 核心要点
- 现有基于卷积的医学图像分割方法受限于局部感受野,难以捕捉全局上下文信息。
- MambaVesselNet++提出了一种混合CNN-Mamba架构,利用卷积提取局部特征,Mamba建模长程依赖。
- 实验结果表明,MambaVesselNet++在2D、3D和实例分割任务中均优于现有方法。
📝 摘要(中文)
医学图像分割在计算机辅助诊断中起着重要作用。传统的基于卷积的U型分割架构通常受到局部感受野的限制。现有的视觉Transformer由于其捕获全局上下文的卓越能力而被广泛应用于各种医学分割框架。尽管具有优势,但视觉Transformer的实际应用受到其非线性自注意力机制的挑战,需要巨大的计算成本。为了解决这个问题,选择性状态空间模型(SSM)Mamba因其在建模序列数据中的长程依赖关系方面的熟练性而受到认可,尤其以其高效的内存成本而闻名。在本文中,我们提出了MambaVesselNet++,一种用于医学图像分割的混合CNN-Mamba框架。我们的MambaVesselNet++由混合图像编码器(Hi-Encoder)和双焦点融合解码器(BF-Decoder)组成。在Hi-Encoder中,我们首先设计纹理感知层,通过利用卷积来捕获低级语义特征。然后,我们利用Mamba以线性复杂度有效地建模长程依赖关系。Bi-Decoder采用跳跃连接来组合Hi-Encoder的局部和全局信息,以精确生成分割掩码。大量的实验表明,MambaVesselNet++在各种医学2D、3D和实例分割任务中优于当前基于卷积、基于Transformer和基于Mamba的最先进方法。代码可在https://github.com/CC0117/MambaVesselNet 获取。
🔬 方法详解
问题定义:医学图像分割旨在精确地识别和分割医学图像中的特定组织、器官或病灶。现有方法,特别是基于卷积神经网络(CNN)的U型架构,虽然在局部特征提取方面表现良好,但由于其固有的局部感受野限制,难以捕捉图像中的长程依赖关系和全局上下文信息。而基于Transformer的方法虽然能够捕捉全局信息,但计算复杂度高,难以应用于大规模医学图像分割任务。
核心思路:MambaVesselNet++的核心思路是结合CNN和Mamba的优势,利用CNN提取局部纹理特征,并利用Mamba高效地建模长程依赖关系。通过这种混合架构,模型既能关注局部细节,又能理解全局上下文,从而提高分割精度。同时,Mamba的线性复杂度使其能够处理大规模医学图像,降低计算成本。
技术框架:MambaVesselNet++的整体架构包括一个混合图像编码器(Hi-Encoder)和一个双焦点融合解码器(BF-Decoder)。Hi-Encoder首先使用纹理感知层(基于卷积)提取低级语义特征,然后使用Mamba模块建模长程依赖关系。BF-Decoder通过跳跃连接将Hi-Encoder的局部和全局信息融合,生成最终的分割掩码。
关键创新:MambaVesselNet++的关键创新在于将Mamba选择性状态空间模型引入医学图像分割领域,并设计了混合CNN-Mamba架构。与传统的基于卷积或Transformer的方法相比,MambaVesselNet++能够在保持较低计算复杂度的同时,有效地建模长程依赖关系,从而提高分割精度。
关键设计:Hi-Encoder中的纹理感知层采用卷积操作,用于提取图像的局部纹理特征。Mamba模块采用选择性状态空间模型,用于建模长程依赖关系。BF-Decoder采用跳跃连接,将Hi-Encoder的局部和全局信息融合。具体的参数设置和网络结构细节可以在论文的实现代码中找到。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MambaVesselNet++在多个医学图像分割任务中取得了优异的性能,超越了当前最先进的基于卷积、基于Transformer和基于Mamba的方法。具体而言,在血管分割任务中,MambaVesselNet++的分割精度显著提升,Dice系数等指标均优于其他方法。
🎯 应用场景
MambaVesselNet++在计算机辅助诊断领域具有广泛的应用前景,例如血管分割、肿瘤检测、器官分割等。该研究可以帮助医生更准确地识别病灶,提高诊断效率和准确性,并为个性化治疗方案的制定提供支持。未来,该方法可以进一步推广到其他医学图像分析任务中,例如图像配准、图像重建等。
📄 摘要(原文)
Medical image segmentation plays an important role in computer-aided diagnosis. Traditional convolution-based U-shape segmentation architectures are usually limited by the local receptive field. Existing vision transformers have been widely applied to diverse medical segmentation frameworks due to their superior capabilities of capturing global contexts. Despite the advantage, the real-world application of vision transformers is challenged by their non-linear self-attention mechanism, requiring huge computational costs. To address this issue, the selective state space model (SSM) Mamba has gained recognition for its adeptness in modeling long-range dependencies in sequential data, particularly noted for its efficient memory costs. In this paper, we propose MambaVesselNet++, a Hybrid CNN-Mamba framework for medical image segmentation. Our MambaVesselNet++ is comprised of a hybrid image encoder (Hi-Encoder) and a bifocal fusion decoder (BF-Decoder). In Hi-Encoder, we first devise the texture-aware layer to capture low-level semantic features by leveraging convolutions. Then, we utilize Mamba to effectively model long-range dependencies with linear complexity. The Bi-Decoder adopts skip connections to combine local and global information of the Hi-Encoder for the accurate generation of segmentation masks. Extensive experiments demonstrate that MambaVesselNet++ outperforms current convolution-based, transformer-based, and Mamba-based state-of-the-arts across diverse medical 2D, 3D, and instance segmentation tasks. The code is available at https://github.com/CC0117/MambaVesselNet.