UNet with Self-Adaptive Mamba-Like Attention and Causal-Resonance Learning for Medical Image Segmentation

📄 arXiv: 2505.15234v2 📥 PDF

作者: Saqib Qamar, Mohd Fazil, Parvez Ahmad, Shakir Khan, Abu Taha Zamani

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-05-21 (更新: 2025-10-17)


💡 一句话要点

提出SAMA-UNet,结合自适应Mamba注意力与因果共振学习,提升医学图像分割精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 医学图像分割 U-Net Mamba 自注意力机制 因果卷积 深度学习 状态空间模型

📋 核心要点

  1. 现有医学图像分割模型在效率和精度间存在trade-off,CNN缺乏全局信息,Transformer计算成本高。
  2. SAMA-UNet通过自适应Mamba注意力和因果共振多尺度模块,有效整合局部和全局特征,提升分割精度。
  3. 实验表明,SAMA-UNet在MRI、CT和内窥镜数据集上均优于现有方法,建立了新的性能基准。

📝 摘要(中文)

医学图像分割在临床应用中至关重要。现有深度学习模型在效率和精度之间面临权衡。卷积神经网络(CNN)擅长捕捉局部细节,但缺乏全局上下文信息;Transformer能够处理全局上下文,但计算成本高昂。状态空间序列模型(SSM)展现了捕捉长程依赖的潜力,但由于与图像结构的不兼容性和自回归假设,其在医学图像分割中的直接应用受到限制。为了克服这些挑战,我们提出了SAMA-UNet,一种新颖的U型架构,引入了两个关键创新:自适应Mamba注意力(SAMA)模块通过动态注意力权重自适应地整合局部和全局特征,实现复杂解剖结构的有效表示;因果共振多尺度模块(CR-MSM)通过调整特征分辨率和跨尺度的因果依赖性,改善编码器-解码器之间的交互,增强低级和高级特征之间的语义对齐。在MRI、CT和内窥镜数据集上的实验表明,SAMA-UNet始终优于CNN、Transformer和基于Mamba的方法,并在多个数据集上建立了新的基准。

🔬 方法详解

问题定义:医学图像分割旨在精确识别和分割医学图像中的特定组织或器官,是临床诊断和治疗计划的关键步骤。现有方法,如CNN,擅长捕捉局部细节,但难以建模全局上下文信息。Transformer虽然能够处理全局信息,但计算复杂度高,难以应用于高分辨率医学图像。Mamba等状态空间模型虽然具有线性复杂度,但直接应用于图像分割时,难以有效处理图像的空间结构和依赖关系。

核心思路:SAMA-UNet的核心思路是结合CNN的局部特征提取能力、Mamba的全局依赖建模能力,以及UNet的编码器-解码器结构。通过自适应地融合局部和全局信息,并增强编码器和解码器之间的特征交互,从而提高医学图像分割的精度和效率。

技术框架:SAMA-UNet采用U型架构,包含编码器、解码器和跳跃连接。编码器部分使用卷积层提取局部特征,并逐渐降低特征图的分辨率。在编码器的每个阶段,引入SAMA模块,自适应地融合局部和全局特征。解码器部分使用反卷积层逐步恢复特征图的分辨率,并通过跳跃连接将编码器的特征传递到解码器。在编码器和解码器之间,引入CR-MSM模块,增强跨尺度的特征交互。

关键创新:SAMA-UNet的关键创新在于SAMA模块和CR-MSM模块。SAMA模块通过动态注意力权重,自适应地融合局部和全局特征,从而有效地表示复杂的解剖结构。CR-MSM模块通过调整特征分辨率和跨尺度的因果依赖性,改善编码器-解码器之间的交互,增强低级和高级特征之间的语义对齐。

关键设计:SAMA模块采用Mamba结构,并引入自适应权重机制,动态调整局部和全局特征的融合比例。CR-MSM模块采用多尺度结构,通过不同的卷积核大小提取不同尺度的特征,并使用因果卷积建模跨尺度的依赖关系。损失函数采用Dice Loss和NSD Loss的加权和,以提高分割精度和边界清晰度。具体的网络结构参数(如卷积核大小、通道数等)根据不同的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAMA-UNet在多个医学图像分割数据集上取得了显著的性能提升。在BTCV数据集上,SAMA-UNet达到了85.38%的DSC和87.82%的NSD;在ACDC数据集上,达到了92.16%的DSC和96.54%的NSD;在EndoVis17数据集上,达到了67.14%的DSC和68.70%的NSD;在ATLAS23数据集上,达到了84.06%的DSC和88.47%的NSD。这些结果表明,SAMA-UNet在不同模态和不同类型的医学图像分割任务中均具有优越的性能。

🎯 应用场景

SAMA-UNet在医学图像分割领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、治疗计划和手术导航。例如,可以应用于肿瘤分割、器官分割、病灶检测等任务。该研究成果有助于提高临床诊断的准确性和效率,并为个性化医疗提供支持。未来,该方法可以进一步扩展到其他医学图像模态和临床应用场景。

📄 摘要(原文)

Medical image segmentation plays an important role in various clinical applications; however, existing deep learning models face trade-offs between efficiency and accuracy. Convolutional Neural Networks (CNNs) capture local details well but miss the global context, whereas transformers handle the global context but at a high computational cost. Recently, State Space Sequence Models (SSMs) have shown potential for capturing long-range dependencies with linear complexity; however, their direct use in medical image segmentation remains limited due to incompatibility with image structures and autoregressive assumptions. To overcome these challenges, we propose SAMA-UNet, a novel U-shaped architecture that introduces two key innovations. First, the Self-Adaptive Mamba-like Aggregated Attention (SAMA) block adaptively integrates local and global features through dynamic attention weighting, enabling an efficient representation of complex anatomical patterns. Second, the causal resonance multi-scale module (CR-MSM) improves encoder-decoder interactions by adjusting feature resolution and causal dependencies across scales, enhancing the semantic alignment between low- and high-level features. Extensive experiments on MRI, CT, and endoscopy datasets demonstrate that SAMA-UNet consistently outperforms CNN, Transformer, and Mamba-based methods. It achieves 85.38% DSC and 87.82% NSD on BTCV, 92.16% and 96.54% on ACDC, 67.14% and 68.70% on EndoVis17, and 84.06% and 88.47% on ATLAS23, establishing new benchmarks across modalities. These results confirm the effectiveness of SAMA-UNet in combining efficiency and accuracy, making it a promising solution for real-world clinical segmentation tasks. The source code is available on GitHub.