Current Pathology Foundation Models are unrobust to Medical Center Differences
作者: Edwin D. de Jong, Eric Marcus, Jonas Teuwen
分类: cs.LG, cs.AI
发布日期: 2025-01-29 (更新: 2025-02-01)
💡 一句话要点
揭示病理学Foundation Model对医学中心差异的非鲁棒性,提出鲁棒性指标。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学 Foundation Model 鲁棒性 医学中心差异 深度学习
📋 核心要点
- 现有的病理学Foundation Model在不同医学中心之间表现出非鲁棒性,影响了其临床应用。
- 提出鲁棒性指标,量化生物特征相对于医学中心混淆因素的影响程度。
- 实验表明,现有模型在很大程度上受到医学中心的影响,且分类错误与同一中心的混淆因素有关。
📝 摘要(中文)
病理学Foundation Model (FM) 在医疗保健领域展现出巨大潜力。为了确保其在临床实践中的应用,必须保证其对不同医学中心差异的鲁棒性。本研究旨在评估病理学FM关注的是生物特征(如组织和癌症类型),还是由染色程序和其他差异引入的医学中心特征。为此,作者提出了鲁棒性指标,该指标反映了生物特征在多大程度上主导了混淆特征。研究评估了十个公开可用的病理学FM,发现所有模型都在很大程度上受到医学中心的影响。不同模型之间的鲁棒性指标存在显著差异。目前只有一个模型的鲁棒性指标大于1,这意味着生物特征略微主导混淆特征。此外,本文还描述了一种量化方法,用于衡量医学中心差异对FM预测性能的影响。研究发现,癌症类型分类错误并非随机,而是与来自同一医学中心的混淆因素有关。FM嵌入空间的可视化结果表明,医学中心比生物因素更能影响模型的组织结构。因此,模型预测图像来源的医学中心比预测组织来源和癌症类型更准确。本文提出的鲁棒性指标旨在推动病理学FM在临床上的可靠应用。
🔬 方法详解
问题定义:现有病理学Foundation Model (FM) 在不同医学中心之间表现出非鲁棒性。由于不同医学中心的染色程序、扫描设备等差异,导致FM学习到的特征可能更多地是医学中心相关的伪影,而非真正的生物特征(如组织类型、癌症类型)。这严重限制了FM在实际临床环境中的泛化能力和可靠性。现有方法缺乏有效的手段来量化和评估这种非鲁棒性,难以指导模型的改进和优化。
核心思路:论文的核心思路是提出一种新的鲁棒性指标,用于量化FM学习到的特征中生物特征和医学中心特征的相对重要性。该指标通过比较模型预测生物特征和医学中心的能力来评估模型的鲁棒性。如果模型能够更准确地预测生物特征,则认为其鲁棒性更高。这种设计能够直接反映模型对医学中心差异的敏感程度。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择或构建一系列病理学Foundation Model;2) 使用包含多个医学中心数据的病理图像数据集;3) 训练或微调FM以预测生物特征(如组织类型、癌症类型)和医学中心;4) 计算鲁棒性指标,该指标定义为模型预测生物特征准确率与预测医学中心准确率的比值;5) 分析鲁棒性指标与下游任务性能之间的关系,并可视化FM的嵌入空间。
关键创新:论文最重要的技术创新点是提出了鲁棒性指标。该指标提供了一种量化评估病理学FM对医学中心差异鲁棒性的方法,填补了该领域的空白。与传统的性能指标(如准确率、F1-score)相比,鲁棒性指标能够更直接地反映模型对混淆因素的敏感程度,为模型的改进提供了更具针对性的指导。
关键设计:鲁棒性指标定义为模型预测生物特征准确率与预测医学中心准确率的比值。该指标的设计简洁明了,易于计算和理解。此外,论文还分析了鲁棒性指标与下游任务性能之间的关系,发现鲁棒性较高的模型在下游任务中表现更好。论文还通过可视化FM的嵌入空间,进一步验证了医学中心对模型特征的影响。
🖼️ 关键图片
📊 实验亮点
研究评估了十个公开可用的病理学FM,发现所有模型都在很大程度上受到医学中心的影响。只有一个模型的鲁棒性指标大于1,这意味着生物特征略微主导混淆特征。研究还发现,癌症类型分类错误并非随机,而是与来自同一医学中心的混淆因素有关。医学中心比生物因素更能影响模型的组织结构。
🎯 应用场景
该研究成果可应用于病理学Foundation Model的开发和评估,指导模型的训练和优化,提高模型在不同医学中心之间的泛化能力。此外,该研究提出的鲁棒性指标可作为临床应用前的重要评估标准,确保模型的可靠性和安全性,促进病理学AI在精准医疗中的应用。
📄 摘要(原文)
Pathology Foundation Models (FMs) hold great promise for healthcare. Before they can be used in clinical practice, it is essential to ensure they are robust to variations between medical centers. We measure whether pathology FMs focus on biological features like tissue and cancer type, or on the well known confounding medical center signatures introduced by staining procedure and other differences. We introduce the Robustness Index. This novel robustness metric reflects to what degree biological features dominate confounding features. Ten current publicly available pathology FMs are evaluated. We find that all current pathology foundation models evaluated represent the medical center to a strong degree. Significant differences in the robustness index are observed. Only one model so far has a robustness index greater than one, meaning biological features dominate confounding features, but only slightly. A quantitative approach to measure the influence of medical center differences on FM-based prediction performance is described. We analyze the impact of unrobustness on classification performance of downstream models, and find that cancer-type classification errors are not random, but specifically attributable to same-center confounders: images of other classes from the same medical center. We visualize FM embedding spaces, and find these are more strongly organized by medical centers than by biological factors. As a consequence, the medical center of origin is predicted more accurately than the tissue source and cancer type. The robustness index introduced here is provided with the aim of advancing progress towards clinical adoption of robust and reliable pathology FMs.