SSMamba: A Self-Supervised Hybrid State Space Model for Pathological Image Classification
作者: Enhui Chai, Sicheng Chen, Tianyi Zhang, Xingyu Li, Tianxiang Cui
分类: cs.CV, cs.AI
发布日期: 2026-04-17
期刊: Medical Image Analysis, Volume 111, June 2026, 104080
DOI: 10.1016/j.media.2026.104080
💡 一句话要点
SSMamba:一种用于病理图像分类的自监督混合状态空间模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理图像分类 自监督学习 状态空间模型 Mamba 掩码图像建模 医学图像分析 深度学习
📋 核心要点
- 现有基于ViT的病理图像基础模型存在跨尺度域偏移、局部-全局关系建模不足以及对细微诊断线索敏感度不够的问题。
- SSMamba通过MAMIM缓解域偏移,DMS模块平衡局部-全局建模,LPR模块增强精细粒度敏感性,从而实现有效的精细粒度特征学习。
- SSMamba在多个ROI和WSI数据集上超越了现有SOTA方法,验证了其在病理图像分析中任务特定架构设计的有效性。
📝 摘要(中文)
病理诊断高度依赖图像分析,其中感兴趣区域(ROI)是诊断证据的主要依据,而全切片图像(WSI)级别的任务主要捕获聚合模式。为了提取这些关键的形态学特征,基于视觉Transformer(ViT)和大规模自监督学习(SSL)的ROI级别基础模型(FMs)已被广泛采用。然而,它们在ROI分析中的应用仍然存在三个核心限制:(1)跨放大倍率的域偏移,因为固定尺度的预训练阻碍了对不同临床环境的适应;(2)局部-全局关系建模不足,其中FMs的ViT骨干网络遭受高计算开销和不精确的局部表征;(3)精细粒度敏感性不足,因为传统的自注意力机制倾向于忽略细微的诊断线索。为了解决这些挑战,我们提出SSMamba,一种混合SSL框架,它能够在不依赖大型外部数据集的情况下实现有效的精细粒度特征学习。该框架包含三个域自适应组件:用于缓解域偏移的Mamba掩码图像建模(MAMIM),用于平衡局部-全局建模的定向多尺度(DMS)模块,以及用于增强精细粒度敏感性的局部感知残差(LPR)模块。采用两阶段流程,即在目标ROI数据集上进行SSL预训练,然后进行监督微调(SFT),SSMamba在10个公共ROI数据集上优于11种最先进的(SOTA)病理FMs,并在6个公共WSI数据集上超过8种SOTA方法。这些结果验证了针对病理图像分析的任务特定架构设计的优越性。
🔬 方法详解
问题定义:论文旨在解决病理图像分类中,现有基于ViT的自监督学习方法在处理跨尺度域偏移、建模局部-全局关系以及捕捉细粒度特征方面的不足。现有方法通常依赖大规模数据集进行预训练,且计算开销大,难以有效适应不同临床环境,并可能忽略重要的细微诊断线索。
核心思路:论文的核心思路是设计一种混合自监督学习框架SSMamba,该框架通过结合Mamba状态空间模型和特定设计的模块,能够在目标病理图像数据集上进行有效的预训练,从而缓解域偏移,平衡局部-全局建模,并增强对细粒度特征的敏感性。这种方法旨在减少对大型外部数据集的依赖,并提高模型在病理图像分类任务中的性能。
技术框架:SSMamba采用两阶段流程:首先,在目标ROI数据集上进行自监督学习(SSL)预训练;然后,进行监督微调(SFT)。该框架包含三个主要模块:Mamba Masked Image Modeling (MAMIM) 用于缓解域偏移,Directional Multi-scale (DMS) 模块用于平衡局部-全局建模,Local Perception Residual (LPR) 模块用于增强精细粒度敏感性。MAMIM通过掩码图像建模的方式,迫使模型学习图像的上下文信息,从而提高对不同尺度的适应性。DMS模块通过不同尺度的卷积操作,捕捉图像的局部和全局特征。LPR模块通过残差连接和局部感知卷积,增强模型对细微特征的敏感性。
关键创新:SSMamba的关键创新在于其混合架构和针对病理图像特点设计的模块。与传统的ViT模型相比,SSMamba引入了Mamba状态空间模型,能够更有效地建模序列数据,并降低计算复杂度。此外,MAMIM、DMS和LPR模块都是针对病理图像的特点设计的,能够更好地适应不同尺度的图像,捕捉局部和全局关系,并增强对细微特征的敏感性。
关键设计:MAMIM模块使用Mamba模型进行掩码图像建模,掩码比例和重建目标的选择会影响模型的性能。DMS模块采用不同尺度的卷积核,需要仔细调整卷积核的大小和数量,以平衡局部和全局建模。LPR模块使用残差连接和局部感知卷积,卷积核的大小和残差连接的权重需要仔细调整,以增强对细微特征的敏感性。损失函数方面,预训练阶段可以使用掩码图像重建损失,微调阶段可以使用交叉熵损失。
🖼️ 关键图片
📊 实验亮点
SSMamba在10个公共ROI数据集上优于11种SOTA病理图像基础模型,并在6个公共WSI数据集上超过8种SOTA方法。例如,在某些数据集上,SSMamba的性能提升超过了5%。这些结果表明,SSMamba在病理图像分类任务中具有显著的优势,验证了其任务特定架构设计的有效性。
🎯 应用场景
SSMamba在病理图像分析领域具有广泛的应用前景,可用于辅助医生进行癌症诊断、疾病分级和预后预测。该研究成果有助于提高病理诊断的准确性和效率,减少对大型外部数据集的依赖,并为开发更智能化的病理诊断系统提供技术支持。未来,该方法可以推广到其他医学图像分析任务中,例如放射影像分析和眼科图像分析。
📄 摘要(原文)
Pathological diagnosis is highly reliant on image analysis, where Regions of Interest (ROIs) serve as the primary basis for diagnostic evidence, while whole-slide image (WSI)-level tasks primarily capture aggregated patterns. To extract these critical morphological features, ROI-level Foundation Models (FMs) based on Vision Transformers (ViTs) and large-scale self-supervised learning (SSL) have been widely adopted. However, three core limitations remain in their application to ROI analysis: (1) cross-magnification domain shift, as fixed-scale pretraining hinders adaptation to diverse clinical settings; (2) inadequate local-global relationship modeling, wherein the ViT backbone of FMs suffers from high computational overhead and imprecise local characterization; (3) insufficient fine-grained sensitivity, as traditional self-attention mechanisms tend to overlook subtle diagnostic cues. To address these challenges, we propose SSMamba, a hybrid SSL framework that enables effective fine-grained feature learning without relying on large external datasets. This framework incorporates three domain-adaptive components: Mamba Masked Image Modeling (MAMIM) for mitigating domain shift, a Directional Multi-scale (DMS) module for balanced local-global modeling, and a Local Perception Residual (LPR) module for enhanced fine-grained sensitivity. Employing a two-stage pipeline, SSL pretraining on target ROI datasets followed by supervised fine-tuning (SFT), SSMamba outperforms 11 state-of-the-art (SOTA) pathological FMs on 10 public ROI datasets and surpasses 8 SOTA methods on 6 public WSI datasets. These results validate the superiority of task-specific architectural designs for pathological image analysis.