SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation
作者: Fuhao Zhang, Lei Liu, Jialin Zhang, Ya-Nan Zhang, Nan Mu
分类: cs.CV
发布日期: 2026-02-26
💡 一句话要点
提出SpectralMamba-UNet,通过频域解耦建模实现纹理结构一致的医学图像分割。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 医学图像分割 状态空间模型 Mamba 频率解耦 频谱分析 UNet 深度学习
📋 核心要点
- 医学图像分割需要同时捕捉全局结构和精细纹理,但现有方法难以兼顾。
- SpectralMamba-UNet在频域解耦结构和纹理信息,利用频域Mamba建模全局上下文,保留高频细节。
- 实验结果表明,该方法在多个医学图像分割任务上取得了显著提升,验证了其有效性。
📝 摘要(中文)
精确的医学图像分割需要有效地建模全局解剖结构和精细的边界细节。最近的状态空间模型(例如,Vision Mamba)提供了高效的远程依赖建模。然而,它们的一维序列化削弱了局部空间连续性和高频表示。为此,我们提出了SpectralMamba-UNet,一种新颖的频率解耦框架,用于在频谱域中解耦结构和纹理信息的学习。我们的频谱分解和建模(SDM)模块应用离散余弦变换来分解低频和高频特征,其中低频有助于通过频域Mamba进行全局上下文建模,高频保留边界敏感的细节。为了平衡频谱贡献,我们引入了一种频谱通道重加权(SCR)机制,以形成通道式频率感知注意力,以及一个频谱引导融合(SGF)模块,以在解码器中实现自适应多尺度融合。在五个公共基准上的实验证明了跨不同模态和分割目标的一致改进,验证了我们方法的有效性和泛化性。
🔬 方法详解
问题定义:医学图像分割任务需要同时捕捉全局的解剖结构和精细的边界细节。现有的方法,特别是基于卷积神经网络的方法,在建模长程依赖关系方面存在局限性。而最近提出的Vision Mamba虽然擅长长程依赖建模,但其一维序列化处理会削弱局部空间连续性和高频信息的表达能力,导致分割结果在纹理细节上表现不足。
核心思路:论文的核心思路是在频域中解耦结构信息和纹理信息。通过将图像转换到频域,低频分量主要代表全局结构信息,而高频分量则代表精细的纹理和边界信息。然后,针对不同频率分量采用不同的建模方式,从而更好地捕捉图像中的结构和纹理特征。
技术框架:SpectralMamba-UNet的整体架构基于UNet,包含编码器和解码器。在编码器中,引入了频谱分解和建模(SDM)模块,该模块首先使用离散余弦变换(DCT)将特征分解为低频和高频分量。然后,低频分量通过频域Mamba模块进行全局上下文建模,高频分量则直接保留。为了平衡不同频率分量的贡献,引入了频谱通道重加权(SCR)机制,对不同通道的频率信息进行加权。在解码器中,使用频谱引导融合(SGF)模块,自适应地融合来自编码器的多尺度特征。
关键创新:该论文的关键创新在于提出了频率解耦的建模方法,将图像的结构信息和纹理信息在频域中分离,并针对性地进行建模。这种方法能够更好地捕捉图像中的全局结构和局部细节,从而提高分割精度。此外,提出的SDM、SCR和SGF模块也都是针对频率解耦建模而设计的,能够有效地提取和融合不同频率的特征。
关键设计:SDM模块使用离散余弦变换(DCT)进行频谱分解。频域Mamba模块的具体实现细节未知,但推测是针对频域信号的特点进行了优化。SCR模块使用通道注意力机制,根据频率信息对不同通道进行加权。SGF模块使用自适应权重融合来自编码器的多尺度特征,具体权重的计算方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SpectralMamba-UNet在五个公共医学图像分割数据集上取得了显著的性能提升。具体来说,该方法在多种模态(如CT、MRI)和分割目标上都表现出了一致的改进,验证了其有效性和泛化性。具体的性能数据和对比基线在论文中给出,但摘要中未明确提及。
🎯 应用场景
该研究成果可广泛应用于各种医学图像分割任务,例如肿瘤分割、器官分割、病灶检测等。通过提高分割精度,可以辅助医生进行更准确的诊断和治疗计划制定。未来,该方法还可以扩展到其他图像处理领域,例如遥感图像分析、视频监控等。
📄 摘要(原文)
Accurate medical image segmentation requires effective modeling of both global anatomical structures and fine-grained boundary details. Recent state space models (e.g., Vision Mamba) offer efficient long-range dependency modeling. However, their one-dimensional serialization weakens local spatial continuity and high-frequency representation. To this end, we propose SpectralMamba-UNet, a novel frequency-disentangled framework to decouple the learning of structural and textural information in the spectral domain. Our Spectral Decomposition and Modeling (SDM) module applies discrete cosine transform to decompose low- and high-frequency features, where low frequency contributes to global contextual modeling via a frequency-domain Mamba and high frequency preserves boundary-sensitive details. To balance spectral contributions, we introduce a Spectral Channel Reweighting (SCR) mechanism to form channel-wise frequency-aware attention, and a Spectral-Guided Fusion (SGF) module to achieve adaptively multi-scale fusion in the decoder. Experiments on five public benchmarks demonstrate consistent improvements across diverse modalities and segmentation targets, validating the effectiveness and generalizability of our approach.