Mamba Based Feature Extraction And Adaptive Multilevel Feature Fusion For 3D Tumor Segmentation From Multi-modal Medical Image

📄 arXiv: 2504.21281v1 📥 PDF

作者: Zexin Ji, Beiji Zou, Xiaoyan Kui, Hua Li, Pierre Vera, Su Ruan

分类: cs.CV

发布日期: 2025-04-30


💡 一句话要点

提出基于Mamba的多模态医学图像肿瘤分割方法,提升3D肿瘤分割精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态医学图像 肿瘤分割 Mamba模型 长程依赖 特征融合 注意力机制 3D图像处理

📋 核心要点

  1. 传统CNN方法难以捕捉全局特征,Transformer方法计算成本高昂,限制了其在3D医学图像分割中的应用。
  2. 设计特定模态的Mamba编码器提取长程相关特征,并提出双层协同集成块动态融合多模态和多层次特征。
  3. 在PET/CT和MRI数据集上,实验结果表明该方法在肿瘤分割任务上取得了优于现有方法的性能。

📝 摘要(中文)

本文提出了一种基于Mamba的多模态医学图像3D肿瘤分割方法,旨在解决图像强度变化和肿瘤形态差异带来的挑战。该方法利用Mamba模型结合线性可扩展性和长距离建模的优势,进行视觉表征学习。具体而言,我们设计了特定模态的Mamba编码器,以高效提取每种模态中代表解剖和病理结构的长程相关特征。此外,我们设计了一个双层协同集成块,通过模态注意力和通道注意力学习,动态融合多模态和多层次的互补特征。最后,解码器结合深层语义信息和细粒度细节,生成肿瘤分割图。在医学图像数据集(PET/CT和MRI多序列)上的实验结果表明,与最先进的CNN、Transformer和基于Mamba的方法相比,我们的方法取得了具有竞争力的性能。

🔬 方法详解

问题定义:多模态3D医学图像肿瘤分割旨在准确识别不同模态下的肿瘤区域。现有基于CNN的方法难以捕捉全局特征,而基于Transformer的方法在3D医学图像分割中计算成本过高。Mamba模型虽然具有潜力,但如何有效利用模态特定特征并融合互补信息仍然是一个挑战。

核心思路:本文的核心思路是利用Mamba模型的长程依赖建模能力,并结合模态注意力和通道注意力机制,实现多模态特征的有效提取和融合。通过特定模态的Mamba编码器提取每种模态的长程相关特征,并通过双层协同集成块动态融合多模态和多层次的互补信息,从而提升肿瘤分割的精度。

技术框架:该方法主要包含三个模块:特定模态Mamba编码器、双层协同集成块和解码器。首先,特定模态Mamba编码器用于提取每种模态的长程相关特征。然后,双层协同集成块通过模态注意力和通道注意力学习,动态融合多模态和多层次的互补特征。最后,解码器结合深层语义信息和细粒度细节,生成肿瘤分割图。

关键创新:该方法的主要创新点在于:1) 针对多模态医学图像设计了特定模态的Mamba编码器,能够高效提取每种模态的长程相关特征;2) 提出了双层协同集成块,通过模态注意力和通道注意力学习,动态融合多模态和多层次的互补特征。与现有方法相比,该方法能够更好地利用Mamba模型的长程依赖建模能力,并有效融合多模态信息。

关键设计:在Mamba编码器中,采用了选择性状态空间模型(Selective State Space Model, S6)来建模序列数据之间的依赖关系。双层协同集成块包含模态注意力和通道注意力两个层级,模态注意力用于学习不同模态之间的权重,通道注意力用于学习不同通道之间的权重。损失函数方面,可能采用了Dice Loss或Cross-Entropy Loss等常用的分割损失函数,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在PET/CT和MRI多序列数据集上进行了实验,结果表明该方法在肿瘤分割任务上取得了优于现有CNN、Transformer和基于Mamba的方法的性能。具体的性能提升数据未知,但摘要中明确指出该方法取得了具有竞争力的性能,表明其在3D肿瘤分割任务中具有显著的优势。

🎯 应用场景

该研究成果可应用于多种医学影像引导的肿瘤诊断和治疗,例如精确放疗计划制定、手术导航等。通过提升肿瘤分割的准确性,可以帮助医生更准确地评估肿瘤的大小、形状和位置,从而制定更有效的治疗方案,提高患者的生存率和生活质量。未来,该方法有望推广到其他类型的医学图像分割任务中。

📄 摘要(原文)

Multi-modal 3D medical image segmentation aims to accurately identify tumor regions across different modalities, facing challenges from variations in image intensity and tumor morphology. Traditional convolutional neural network (CNN)-based methods struggle with capturing global features, while Transformers-based methods, despite effectively capturing global context, encounter high computational costs in 3D medical image segmentation. The Mamba model combines linear scalability with long-distance modeling, making it a promising approach for visual representation learning. However, Mamba-based 3D multi-modal segmentation still struggles to leverage modality-specific features and fuse complementary information effectively. In this paper, we propose a Mamba based feature extraction and adaptive multilevel feature fusion for 3D tumor segmentation using multi-modal medical image. We first develop the specific modality Mamba encoder to efficiently extract long-range relevant features that represent anatomical and pathological structures present in each modality. Moreover, we design an bi-level synergistic integration block that dynamically merges multi-modal and multi-level complementary features by the modality attention and channel attention learning. Lastly, the decoder combines deep semantic information with fine-grained details to generate the tumor segmentation map. Experimental results on medical image datasets (PET/CT and MRI multi-sequence) show that our approach achieve competitive performance compared to the state-of-the-art CNN, Transformer, and Mamba-based approaches.