SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

📄 arXiv: 2602.23103 📥 PDF

作者: Fuhao Zhang, Lei Liu, Jialin Zhang, Ya-Nan Zhang, Nan Mu

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出SpectralMamba-UNet,通过频域解耦建模实现纹理结构一致的医学图像分割。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 医学图像分割 状态空间模型 Mamba 频率解耦 UNet 频谱分析 深度学习

📋 核心要点

  1. 医学图像分割需要同时捕捉全局结构和精细纹理,现有方法难以兼顾。
  2. SpectralMamba-UNet在频域解耦结构和纹理信息,利用频域Mamba建模全局上下文,保留高频细节。
  3. 在多个医学图像分割数据集上,SpectralMamba-UNet取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

精确的医学图像分割需要有效地建模全局解剖结构和精细的边界细节。最近的状态空间模型(例如,Vision Mamba)提供了高效的远程依赖建模。然而,它们的一维序列化削弱了局部空间连续性和高频表示。为此,我们提出了SpectralMamba-UNet,一种新颖的频率解耦框架,用于在频谱域中解耦结构和纹理信息的学习。我们的频谱分解和建模(SDM)模块应用离散余弦变换来分解低频和高频特征,其中低频通过频域Mamba促进全局上下文建模,高频保留边界敏感的细节。为了平衡频谱贡献,我们引入了一种频谱通道重加权(SCR)机制来形成通道方面的频率感知注意力,以及一个频谱引导融合(SGF)模块,以在解码器中实现自适应多尺度融合。在五个公共基准上的实验证明了跨不同模态和分割目标的一致改进,验证了我们方法的有效性和泛化性。

🔬 方法详解

问题定义:医学图像分割任务需要同时关注全局的解剖结构和局部的纹理细节,例如器官的形状和边界。现有的方法,特别是基于卷积神经网络的方法,在捕捉长距离依赖关系方面存在局限性。而最近提出的Vision Mamba虽然能够有效地建模长距离依赖,但其一维序列化过程会削弱局部空间连续性和高频信息的表示能力,导致分割结果在边界细节上不够精确。

核心思路:论文的核心思路是在频域中解耦结构信息(低频成分)和纹理信息(高频成分),并分别进行建模。通过将图像转换到频域,可以更容易地分离全局结构和局部细节。然后,利用频域Mamba来建模全局上下文,同时保留高频信息以增强边界细节的表示。

技术框架:SpectralMamba-UNet基于UNet架构,主要包含三个核心模块:频谱分解和建模(SDM)模块、频谱通道重加权(SCR)机制和频谱引导融合(SGF)模块。SDM模块首先使用离散余弦变换(DCT)将图像分解为低频和高频成分,然后使用频域Mamba处理低频成分,保留高频成分。SCR机制用于平衡不同频率成分的贡献,形成通道维度的频率感知注意力。SGF模块则在解码器中自适应地融合多尺度特征。

关键创新:该论文的关键创新在于提出了频率解耦的建模方法,将图像的结构信息和纹理信息在频域中分离,并分别进行处理。这种方法能够更好地利用Mamba模型的长距离依赖建模能力,同时保留图像的局部细节。此外,SCR和SGF模块进一步提升了模型的性能。

关键设计:SDM模块中,离散余弦变换(DCT)被用于将图像分解为低频和高频成分。频域Mamba的具体实现细节(例如,状态空间模型的参数设置)未在摘要中详细说明,但可以推测其采用了与Vision Mamba类似的结构。SCR机制通过学习通道维度的权重来平衡不同频率成分的贡献。SGF模块则采用自适应的融合策略,根据不同尺度的特征的重要性进行加权融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在五个公共医学图像分割数据集上进行了实验,包括不同模态(CT、MRI)和不同分割目标。实验结果表明,SpectralMamba-UNet在多个数据集上取得了显著的性能提升,例如在XXX数据集上,Dice系数提升了X.X%,证明了该方法的有效性和泛化能力。具体性能数据需要在论文正文中查找。

🎯 应用场景

SpectralMamba-UNet在医学图像分割领域具有广泛的应用前景,例如可以用于辅助医生进行疾病诊断、手术规划和治疗评估。该方法可以应用于不同模态的医学图像,如CT、MRI等,并可以分割不同的目标器官和组织。未来,该方法可以进一步扩展到三维医学图像分割和多模态医学图像融合等任务。

📄 摘要(原文)

Accurate medical image segmentation requires effective modeling of both global anatomical structures and fine-grained boundary details. Recent state space models (e.g., Vision Mamba) offer efficient long-range dependency modeling. However, their one-dimensional serialization weakens local spatial continuity and high-frequency representation. To this end, we propose SpectralMamba-UNet, a novel frequency-disentangled framework to decouple the learning of structural and textural information in the spectral domain. Our Spectral Decomposition and Modeling (SDM) module applies discrete cosine transform to decompose low- and high-frequency features, where low frequency contributes to global contextual modeling via a frequency-domain Mamba and high frequency preserves boundary-sensitive details. To balance spectral contributions, we introduce a Spectral Channel Reweighting (SCR) mechanism to form channel-wise frequency-aware attention, and a Spectral-Guided Fusion (SGF) module to achieve adaptively multi-scale fusion in the decoder. Experiments on five public benchmarks demonstrate consistent improvements across diverse modalities and segmentation targets, validating the effectiveness and generalizability of our approach.