Benchmarking foundation models as feature extractors for weakly-supervised computational pathology

📄 arXiv: 2408.15823v2 📥 PDF

作者: Peter Neidlinger, Omar S. M. El Nahhas, Hannah Sophie Muti, Tim Lenz, Michael Hoffmeister, Hermann Brenner, Marko van Treeck, Rupert Langer, Bastian Dislich, Hans Michael Behrens, Christoph Röcken, Sebastian Foersch, Daniel Truhn, Antonio Marra, Oliver Lester Saldanha, Jakob Nikolas Kather

分类: eess.IV, cs.CV

发布日期: 2024-08-28 (更新: 2024-12-08)


💡 一句话要点

通过基准测试病理学Foundation模型,用于弱监督计算病理学特征提取。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation模型 弱监督学习 基准测试 模型集成 特征提取 计算病理学

📋 核心要点

  1. 现有病理学Foundation模型缺乏在外部队列和临床任务上的独立评估,限制了模型改进。
  2. 论文通过基准测试19个Foundation模型,并融合互补特征,提升弱监督任务性能。
  3. 实验表明,CONCH模型表现最佳,模型集成优于单一模型,数据多样性比数据量更重要。

📝 摘要(中文)

人工智能的进步推动了众多病理学Foundation模型的开发,这些模型能够提取临床相关信息。然而,目前独立评估这些Foundation模型在真正外部队列和临床相关任务上的文献有限,难以发现未来改进的方向。本研究对来自肺癌、结直肠癌、胃癌和乳腺癌的6,818名患者和9,528张切片的13个患者队列中的19个组织病理学Foundation模型进行了基准测试。这些模型在与生物标志物、形态学特性和预后结果相关的弱监督任务上进行了评估。结果表明,视觉-语言Foundation模型CONCH在性能上优于纯视觉Foundation模型,Virchow2紧随其后。实验表明,在不同队列上训练的Foundation模型学习了互补的特征来预测相同的标签,并且可以融合以超越当前的技术水平。CONCH和Virchow2预测的集成在55%的任务中优于单个模型,利用了它们在分类场景中的互补优势。此外,我们的研究结果表明,对于Foundation模型而言,数据多样性胜过数据量。我们的工作强调了改进病理学Foundation模型的可行调整。

🔬 方法详解

问题定义:论文旨在解决病理学Foundation模型在外部数据集上的泛化能力评估问题,以及如何有效利用这些模型提取的特征进行弱监督任务。现有方法缺乏对这些模型在真实临床场景下的性能进行全面、独立的评估,并且没有充分挖掘不同模型学习到的互补信息。

核心思路:论文的核心思路是通过大规模的基准测试,评估不同Foundation模型在多个癌症类型和临床任务上的表现。同时,探索模型集成的方法,利用不同模型学习到的互补特征,提升整体性能。此外,研究数据多样性和数据量对Foundation模型性能的影响。

技术框架:整体框架包括以下几个阶段:1) 数据收集和预处理:收集来自不同癌症类型的病理切片数据,并进行必要的预处理。2) 特征提取:使用19个预训练的病理学Foundation模型提取图像特征。3) 弱监督任务:在生物标志物预测、形态学特性预测和预后预测等弱监督任务上评估模型性能。4) 模型集成:探索不同模型集成的方法,如简单平均和加权平均,以提升整体性能。5) 结果分析:分析实验结果,比较不同模型的性能,并探讨数据多样性和数据量对模型性能的影响。

关键创新:论文的关键创新在于:1) 对大量病理学Foundation模型进行了系统性的基准测试,提供了全面的性能评估。2) 提出了模型集成的方法,有效利用了不同模型学习到的互补特征。3) 揭示了数据多样性比数据量对病理学Foundation模型更重要。

关键设计:论文的关键设计包括:1) 选择了19个具有代表性的病理学Foundation模型,涵盖了不同的训练数据和模型架构。2) 选择了多个具有临床意义的弱监督任务,能够全面评估模型的性能。3) 采用了多种模型集成方法,并进行了充分的实验比较。4) 对实验结果进行了深入的分析,探讨了数据多样性和数据量对模型性能的影响。

📊 实验亮点

实验结果表明,视觉-语言模型CONCH表现最佳,Virchow2紧随其后。CONCH和Virchow2的集成在55%的任务中优于单个模型。研究还发现,数据多样性对Foundation模型的影响大于数据量,这为未来模型训练提供了重要指导。这些发现为病理学Foundation模型的选择和优化提供了有价值的参考。

🎯 应用场景

该研究成果可应用于辅助病理诊断、生物标志物预测、预后评估等领域。通过选择合适的Foundation模型或集成多个模型,可以提高诊断的准确性和效率,为患者提供更精准的治疗方案。研究结果对病理学Foundation模型的未来发展方向具有指导意义,有助于开发更有效、更通用的病理诊断工具。

📄 摘要(原文)

Advancements in artificial intelligence have driven the development of numerous pathology foundation models capable of extracting clinically relevant information. However, there is currently limited literature independently evaluating these foundation models on truly external cohorts and clinically-relevant tasks to uncover adjustments for future improvements. In this study, we benchmarked 19 histopathology foundation models on 13 patient cohorts with 6,818 patients and 9,528 slides from lung, colorectal, gastric, and breast cancers. The models were evaluated on weakly-supervised tasks related to biomarkers, morphological properties, and prognostic outcomes. We show that a vision-language foundation model, CONCH, yielded the highest performance when compared to vision-only foundation models, with Virchow2 as close second. The experiments reveal that foundation models trained on distinct cohorts learn complementary features to predict the same label, and can be fused to outperform the current state of the art. An ensemble combining CONCH and Virchow2 predictions outperformed individual models in 55% of tasks, leveraging their complementary strengths in classification scenarios. Moreover, our findings suggest that data diversity outweighs data volume for foundation models. Our work highlights actionable adjustments to improve pathology foundation models.