MEDFORM: A Foundation Model for Contrastive Learning of CT Imaging and Clinical Numeric Data in Multi-Cancer Analysis

📄 arXiv: 2501.13277v1 📥 PDF

作者: Daeun Jung, Jaehyeok Jang, Sooyoung Jang, Yu Rang Park

分类: cs.CV

发布日期: 2025-01-22

备注: 8 pages, 1 figure

🔗 代码/项目: GITHUB


💡 一句话要点

MEDFORM:用于多癌分析的CT影像和临床数值数据对比学习的基石模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像 多模态学习 对比学习 CT影像 临床数据

📋 核心要点

  1. 医学影像和临床数据融合困难,缺乏大规模多模态数据集,限制了医学基石模型的发展。
  2. MEDFORM利用临床数据指导CT图像表征学习,通过双重预训练策略,提升模型性能。
  3. 在三种癌症数据集上预训练的MEDFORM,在癌症分类和少样本学习中表现出优越性能。

📝 摘要(中文)

本研究提出MEDFORM,一种多模态预训练策略,利用临床数据的互补信息指导CT图像表征学习,以开发医学基石模型。由于多层CT数据的结构复杂性和专家标注的高成本,构建用于开发医学基石模型的大规模多模态训练数据集仍然具有挑战性。MEDFORM通过多示例学习(MIL)有效处理CT切片,并采用双重预训练策略:首先使用基于SimCLR的自监督学习预训练CT切片特征提取器,然后通过跨模态对比学习对齐CT和临床模态。我们的模型在三种不同的癌症类型上进行了预训练:肺癌(141,171个切片)、乳腺癌(8,100个切片)和结直肠癌(10,393个切片)。实验结果表明,这种双重预训练策略提高了癌症分类性能,并在少样本学习场景中保持了稳健的性能。

🔬 方法详解

问题定义:现有方法难以有效融合CT影像和临床数值数据,构建大规模多模态数据集成本高昂,专家标注困难,导致医学影像分析模型泛化能力受限。尤其是在多癌分析中,不同癌症类型的数据分布差异大,模型训练更具挑战性。

核心思路:MEDFORM的核心思路是利用临床数值数据作为CT影像表征学习的辅助信息,通过对比学习的方式,将CT影像特征与临床数据特征对齐,从而提升CT影像特征的表达能力。这种方法避免了直接标注CT影像的困难,降低了数据标注成本。

技术框架:MEDFORM采用双重预训练框架。第一阶段,使用SimCLR进行自监督学习,预训练CT切片特征提取器,使其能够捕捉CT影像中的一般特征。第二阶段,通过跨模态对比学习,将CT影像特征与临床数据特征对齐。整体流程包括:CT切片输入、特征提取、临床数据输入、特征提取、对比学习损失计算、模型参数更新。

关键创新:MEDFORM的关键创新在于其双重预训练策略和跨模态对比学习方法。双重预训练策略首先利用自监督学习提取CT影像的通用特征,然后利用临床数据对齐CT影像特征,从而提升了模型的泛化能力。跨模态对比学习方法有效地融合了CT影像和临床数据,避免了直接标注CT影像的困难。

关键设计:MEDFORM使用多示例学习(MIL)处理CT切片数据,将整个CT扫描视为一个包,每个切片视为一个实例。在对比学习中,使用InfoNCE损失函数,鼓励模型将来自同一患者的CT影像和临床数据拉近,将来自不同患者的数据推远。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

📊 实验亮点

MEDFORM在三种癌症类型(肺癌、乳腺癌、结直肠癌)的数据集上进行了预训练,实验结果表明,该模型在癌症分类任务中取得了显著的性能提升,并且在少样本学习场景下表现出良好的鲁棒性。具体的性能数据和对比基线在论文中未详细说明,属于未知信息。

🎯 应用场景

MEDFORM具有广泛的应用前景,可用于癌症诊断、预后预测、治疗方案选择等。通过融合CT影像和临床数据,可以为医生提供更全面、准确的决策支持,提高医疗效率和患者生存率。未来,该模型可以扩展到其他医学影像模态和疾病类型,构建更强大的医学基石模型。

📄 摘要(原文)

Computed tomography (CT) and clinical numeric data are essential modalities for cancer evaluation, but building large-scale multimodal training datasets for developing medical foundation models remains challenging due to the structural complexity of multi-slice CT data and high cost of expert annotation. In this study, we propose MEDFORM, a multimodal pre-training strategy that guides CT image representation learning using complementary information from clinical data for medical foundation model development. MEDFORM efficiently processes CT slice through multiple instance learning (MIL) and adopts a dual pre-training strategy: first pretraining the CT slice feature extractor using SimCLR-based self-supervised learning, then aligning CT and clinical modalities through cross-modal contrastive learning. Our model was pre-trained on three different cancer types: lung cancer (141,171 slices), breast cancer (8,100 slices), colorectal cancer (10,393 slices). The experimental results demonstrated that this dual pre-training strategy improves cancer classification performance and maintains robust performance in few-shot learning scenarios. Code available at https://github.com/DigitalHealthcareLab/25MultiModalFoundationModel.git