Self-supervised learning of imaging and clinical signatures using a multimodal joint-embedding predictive architecture

📄 arXiv: 2509.15470v1 📥 PDF

作者: Thomas Z. Li, Aravind R. Krishnan, Lianrui Zuo, John M. Still, Kim L. Sandler, Fabien Maldonado, Thomas A. Lasko, Bennett A. Landman

分类: cs.CV, cs.AI

发布日期: 2025-09-18


💡 一句话要点

利用多模态联合嵌入预测架构的自监督学习提升肺结节诊断

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 多模态融合 肺结节诊断 联合嵌入 医学影像 电子健康记录 预训练

📋 核心要点

  1. 多模态肺结节诊断模型受限于标注数据不足,容易在训练集上过拟合。
  2. 提出联合嵌入预测架构(JEPA)进行自监督预训练,利用无标注多模态数据提升模型泛化能力。
  3. 在内部数据集上,该方法优于其他模型,但在外部数据集上表现略逊,并分析了原因。

📝 摘要(中文)

针对肺结节诊断多模态模型面临的标注数据稀缺和过拟合问题,本文提出了一种利用纵向和多模态数据进行自监督学习的方法。该方法使用机构内部CT扫描和电子健康记录构建的无标注数据集,进行联合嵌入预测架构(JEPA)的预训练。在监督微调后,该方法在内部队列中优于未正则化的多模态模型和仅使用影像的模型(AUC分别为0.91、0.88和0.73),但在外部队列中表现较差(AUC分别为0.72和0.75)。本文还构建了一个合成环境,用于分析JEPA可能表现不佳的情况。该研究创新性地利用无标注多模态医学数据来改进预测模型,并展示了其在肺结节诊断中的优势和局限性。

🔬 方法详解

问题定义:肺结节诊断的多模态模型训练面临标注数据稀缺的问题,导致模型容易过拟合,泛化能力差。现有方法难以有效利用大量的无标注多模态医学数据,限制了模型的性能提升。

核心思路:利用自监督学习的思想,通过预训练的方式,让模型从大量的无标注CT影像和电子健康记录中学习到通用的影像和临床特征表示。这样,即使在标注数据较少的情况下,模型也能获得较好的泛化能力。核心在于构建一个能够有效融合多模态信息的联合嵌入空间。

技术框架:该方法使用联合嵌入预测架构(JEPA)进行预训练。JEPA包含影像编码器和临床数据编码器,分别将CT影像和电子健康记录映射到联合嵌入空间。预训练阶段,模型学习预测同一患者的影像和临床数据在嵌入空间中的关系。微调阶段,使用少量标注数据对模型进行微调,用于肺结节诊断任务。

关键创新:该方法的关键创新在于利用自监督学习的方式,从无标注的多模态医学数据中学习到通用的特征表示。与传统的监督学习方法相比,该方法能够有效利用大量的无标注数据,提升模型的泛化能力。此外,JEPA架构能够有效地融合影像和临床数据,从而提高诊断的准确性。

关键设计:具体而言,影像编码器可以使用卷积神经网络(CNN),临床数据编码器可以使用多层感知机(MLP)。损失函数可以采用对比学习损失,例如InfoNCE损失,鼓励同一患者的影像和临床数据在嵌入空间中靠近,不同患者的数据远离。预训练完成后,使用交叉熵损失函数对模型进行微调,用于肺结节诊断任务。论文还设计了一个合成环境来分析JEPA在特定情况下的性能表现。

📊 实验亮点

该研究在内部数据集上取得了显著的性能提升,AUC从仅使用影像的0.73提升到0.91,优于未正则化的多模态模型(0.88)。虽然在外部数据集上表现略逊于仅使用影像的模型(0.72 vs 0.75),但通过合成环境的分析,揭示了JEPA在特定数据分布下的局限性,为未来的研究提供了指导。

🎯 应用场景

该研究成果可应用于肺结节的早期诊断和风险评估,辅助医生进行更准确的判断。通过整合影像和临床数据,可以为患者提供个性化的治疗方案。此外,该方法还可以推广到其他疾病的诊断和预测任务中,例如心血管疾病、肿瘤等,具有广泛的应用前景。

📄 摘要(原文)

The development of multimodal models for pulmonary nodule diagnosis is limited by the scarcity of labeled data and the tendency for these models to overfit on the training distribution. In this work, we leverage self-supervised learning from longitudinal and multimodal archives to address these challenges. We curate an unlabeled set of patients with CT scans and linked electronic health records from our home institution to power joint embedding predictive architecture (JEPA) pretraining. After supervised finetuning, we show that our approach outperforms an unregularized multimodal model and imaging-only model in an internal cohort (ours: 0.91, multimodal: 0.88, imaging-only: 0.73 AUC), but underperforms in an external cohort (ours: 0.72, imaging-only: 0.75 AUC). We develop a synthetic environment that characterizes the context in which JEPA may underperform. This work innovates an approach that leverages unlabeled multimodal medical archives to improve predictive models and demonstrates its advantages and limitations in pulmonary nodule diagnosis.