Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation?

📄 arXiv: 2409.07960v1 📥 PDF

作者: Kerem Cekmeceli, Meva Himmetoglu, Guney I. Tombak, Anna Susmelj, Ertunc Erdil, Ender Konukoglu

分类: cs.CV, cs.LG

发布日期: 2024-09-12

🔗 代码/项目: GITHUB


💡 一句话要点

利用视觉基础模型和HQHSAM解码头提升医学图像分割的领域泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 领域泛化 视觉基础模型 参数高效微调 HQHSAM解码头 深度学习 迁移学习

📋 核心要点

  1. 医学图像分割面临领域偏移挑战,不同扫描仪和协议导致数据分布差异,降低模型泛化能力。
  2. 利用视觉基础模型(FMs)的强大泛化能力,结合参数高效微调(PEFT)技术,适应医学图像分割任务。
  3. 提出HQHSAM解码头,融合HSAM和HQSAM的优点,实验证明能有效提升FMs的领域泛化性能。

📝 摘要(中文)

神经网络在训练数据分布与测试数据分布匹配时,在许多监督学习任务中取得了最先进的性能。然而,由于不同扫描仪型号和协议导致采集设置不同,领域偏移是医学图像分割中普遍存在的问题,神经网络的性能会显著下降。最近,在大型数据集上训练的基础模型(FMs)因其能够适应下游任务并在自然图像上实现最先进的性能和出色的泛化能力而备受关注。然而,它们在医学图像分割中的有效性仍未得到充分探索。本文研究了各种FMs(包括DinoV2、SAM、MedSAM和MAE)在通过各种参数高效微调(PEFT)技术(如Ladder和Rein (+LoRA))以及解码器头进行微调时的领域泛化性能。我们引入了一种新颖的解码头架构HQHSAM,它简单地集成了两个最先进的解码头HSAM和HQSAM的元素,以提高分割性能。我们在包含各种解剖结构和模态的多个数据集上进行的大量实验表明,FMs,特别是带有HQHSAM解码头的FMs,提高了医学图像分割的领域泛化能力。此外,我们发现PEFT技术在不同的FMs中的有效性各不相同。这些发现强调了FMs在增强神经网络在不同临床环境下的医学图像分割的领域泛化性能方面的潜力,为未来的研究提供了坚实的基础。

🔬 方法详解

问题定义:医学图像分割任务中,由于不同医疗机构使用不同的扫描设备和成像协议,导致训练数据和测试数据存在显著的领域差异(domain shift)。现有的分割模型在训练数据分布相似的测试集上表现良好,但在新的、未见过的领域中性能会显著下降。因此,如何提升模型在不同领域数据上的泛化能力是亟待解决的问题。

核心思路:论文的核心思路是利用在海量自然图像数据上预训练的视觉基础模型(FMs),将其知识迁移到医学图像分割任务中。FMs具有强大的特征提取能力和泛化性能,能够更好地适应不同领域的医学图像数据。同时,结合参数高效微调(PEFT)技术,避免对整个模型进行微调,从而降低计算成本并防止过拟合。

技术框架:整体框架包括三个主要部分:1) 视觉基础模型(FMs):选择DinoV2、SAM、MedSAM和MAE等预训练模型作为特征提取器。2) 参数高效微调(PEFT):采用Ladder和Rein (+LoRA)等PEFT技术,对FMs进行微调,使其适应医学图像分割任务。3) 解码头:设计新的解码头HQHSAM,用于将FMs提取的特征映射到分割结果。整个流程是先使用FMs提取图像特征,然后通过PEFT技术进行微调,最后使用解码头生成分割结果。

关键创新:论文的关键创新在于提出了HQHSAM解码头,它融合了HSAM和HQSAM两种最先进解码头的优点。HSAM擅长捕捉全局上下文信息,而HQSAM则侧重于局部细节。HQHSAM通过简单地集成这两种解码头的元素,实现了全局和局部信息的有效融合,从而提高了分割性能。

关键设计:HQHSAM解码头的关键设计在于将HSAM和HQSAM的输出进行融合。具体来说,HQHSAM首先分别使用HSAM和HQSAM对FMs提取的特征进行解码,然后将两个解码器的输出进行加权融合,得到最终的分割结果。权重可以设置为固定值,也可以通过学习得到。此外,论文还探索了不同的PEFT技术,并分析了它们在不同FMs上的有效性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用FMs(特别是带有HQHSAM解码头的FMs)能够显著提高医学图像分割的领域泛化能力。在多个数据集上,HQHSAM解码头均优于其他解码头,并且不同的PEFT技术在不同的FMs上的表现有所差异。这些结果验证了FMs在医学图像分割中的潜力,并为未来的研究提供了指导。

🎯 应用场景

该研究成果可广泛应用于医学图像分析领域,例如辅助医生进行疾病诊断、手术规划和疗效评估。通过提高医学图像分割的领域泛化能力,可以减少对大量标注数据的依赖,降低模型部署成本,并提高临床应用的可靠性。未来,该方法有望推广到其他医学图像处理任务中,例如图像配准、图像重建等。

📄 摘要(原文)

Neural networks achieve state-of-the-art performance in many supervised learning tasks when the training data distribution matches the test data distribution. However, their performance drops significantly under domain (covariate) shift, a prevalent issue in medical image segmentation due to varying acquisition settings across different scanner models and protocols. Recently, foundational models (FMs) trained on large datasets have gained attention for their ability to be adapted for downstream tasks and achieve state-of-the-art performance with excellent generalization capabilities on natural images. However, their effectiveness in medical image segmentation remains underexplored. In this paper, we investigate the domain generalization performance of various FMs, including DinoV2, SAM, MedSAM, and MAE, when fine-tuned using various parameter-efficient fine-tuning (PEFT) techniques such as Ladder and Rein (+LoRA) and decoder heads. We introduce a novel decode head architecture, HQHSAM, which simply integrates elements from two state-of-the-art decoder heads, HSAM and HQSAM, to enhance segmentation performance. Our extensive experiments on multiple datasets, encompassing various anatomies and modalities, reveal that FMs, particularly with the HQHSAM decode head, improve domain generalization for medical image segmentation. Moreover, we found that the effectiveness of PEFT techniques varies across different FMs. These findings underscore the potential of FMs to enhance the domain generalization performance of neural networks in medical image segmentation across diverse clinical settings, providing a solid foundation for future research. Code and models are available for research purposes at \url{https://github.com/kerem-cekmeceli/Foundation-Models-for-Medical-Imagery}.