SynthFM: Training Modality-agnostic Foundation Models for Medical Image Segmentation without Real Medical Data

📄 arXiv: 2504.08177v1 📥 PDF

作者: Sourya Sengupta, Satrajit Chakrabarty, Keerthi Sravan Ravi, Gopal Avinash, Ravi Soni

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-04-11


💡 一句话要点

SynthFM:无需真实医学数据,训练模态无关的医学图像分割基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 合成数据 基础模型 零样本学习 模态无关 深度学习 SAM 预训练模型

📋 核心要点

  1. 医学图像分割面临标注数据稀缺的挑战,现有基础模型在医学图像上表现不佳。
  2. SynthFM通过生成逼真的合成医学图像数据,使模型无需真实数据即可适应医学图像分割任务。
  3. 实验表明,SynthFM在多种医学图像模态和解剖结构上,均优于现有零样本分割方法。

📝 摘要(中文)

由于纹理、对比度和噪声的差异,诸如Segment Anything Model (SAM)等基础模型在自然图像的零样本分割中表现出色,但在医学图像分割中却表现不佳。医学图像的标注成本高昂且需要领域专业知识,限制了大规模标注数据的可用性。为了解决这个问题,我们提出了SynthFM,一个合成数据生成框架,它模仿医学图像的复杂性,使基础模型能够在没有真实医学数据的情况下进行适应。使用SAM的预训练编码器,并在SynthFM的数据集上从头开始训练解码器,我们在9个数据集(CT、MRI和超声)上的11个解剖结构上评估了我们的方法。SynthFM优于SAM和MedSAM等零样本基线,在不同的提示设置和分布外数据集上取得了优异的结果。

🔬 方法详解

问题定义:医学图像分割任务面临着数据标注成本高昂、专家知识依赖性强的问题。现有的通用图像分割基础模型,如SAM,由于医学图像与自然图像在纹理、对比度和噪声等方面的差异,直接应用于医学图像分割时性能显著下降。因此,如何在缺乏大量标注医学图像的情况下,提升医学图像分割模型的性能是一个关键问题。

核心思路:SynthFM的核心思路是利用合成数据来弥补真实医学图像数据的不足。通过生成具有医学图像特征的合成数据,训练基础模型的解码器,使其能够适应医学图像的特性,从而提升在真实医学图像上的分割性能。这种方法避免了对真实医学图像进行标注的需求,降低了成本和专家依赖性。

技术框架:SynthFM框架主要包含两个阶段:合成数据生成和模型训练。首先,SynthFM生成逼真的合成医学图像数据,这些数据模拟了不同模态(CT、MRI、超声)和不同解剖结构的医学图像特征。然后,利用SAM的预训练编码器,并使用生成的合成数据从头开始训练解码器。在推理阶段,使用训练好的编码器-解码器模型对真实医学图像进行分割。

关键创新:SynthFM的关键创新在于其合成数据生成方法。该方法能够生成具有医学图像特性的合成数据,从而使模型能够在没有真实医学图像数据的情况下进行训练。此外,SynthFM还利用了预训练的SAM编码器,从而能够利用其在自然图像上学习到的通用特征表示能力。

关键设计:SynthFM的合成数据生成过程需要仔细设计,以确保生成的数据具有足够的真实感和多样性。具体的合成数据生成方法细节未知,但可以推测可能涉及到对医学图像特征(如纹理、对比度、噪声等)的建模和模拟。此外,解码器的训练过程也需要进行优化,以确保模型能够充分利用合成数据的信息,并避免过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SynthFM在9个数据集上的11个解剖结构上进行了评估,结果表明,SynthFM优于SAM和MedSAM等零样本基线。具体性能数据未知,但论文强调SynthFM在不同的提示设置和分布外数据集上均取得了优异的结果,表明其具有良好的泛化能力和鲁棒性。

🎯 应用场景

SynthFM具有广泛的应用前景,可用于辅助医生进行疾病诊断、手术规划和治疗评估。通过提升医学图像分割的准确性和效率,SynthFM可以减少人工标注的工作量,降低医疗成本,并提高医疗服务的质量。未来,SynthFM有望应用于更多医学图像模态和解剖结构的分割任务,并与其他人工智能技术相结合,实现更智能化的医疗应用。

📄 摘要(原文)

Foundation models like the Segment Anything Model (SAM) excel in zero-shot segmentation for natural images but struggle with medical image segmentation due to differences in texture, contrast, and noise. Annotating medical images is costly and requires domain expertise, limiting large-scale annotated data availability. To address this, we propose SynthFM, a synthetic data generation framework that mimics the complexities of medical images, enabling foundation models to adapt without real medical data. Using SAM's pretrained encoder and training the decoder from scratch on SynthFM's dataset, we evaluated our method on 11 anatomical structures across 9 datasets (CT, MRI, and Ultrasound). SynthFM outperformed zero-shot baselines like SAM and MedSAM, achieving superior results under different prompt settings and on out-of-distribution datasets.