PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology
作者: George Shaikovski, Adam Casson, Kristen Severson, Eric Zimmermann, Yi Kan Wang, Jeremy D. Kunz, Juan A. Retamero, Gerard Oakley, David Klimstra, Christopher Kanan, Matthew Hanna, Michal Zelechowski, Julian Viret, Neil Tenenholtz, James Hall, Nicolo Fusi, Razik Yousfi, Peter Hamilton, William A. Moye, Eugene Vorontsov, Siqi Liu, Thomas J. Fuchs
分类: eess.IV, cs.CV, cs.LG
发布日期: 2024-05-16 (更新: 2024-05-22)
💡 一句话要点
PRISM:用于切片级别组织病理学的多模态生成式基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算病理学 基础模型 多模态学习 组织病理学 切片级别分析
📋 核心要点
- 现有计算病理学基础模型无法有效聚合全切片图像中的大量切片信息,限制了其在临床分析中的应用。
- PRISM模型利用Virchow切片嵌入和临床报告文本进行预训练,生成切片级别的嵌入,并具备生成临床报告的能力。
- 实验表明,PRISM在零样本癌症检测和亚型分类以及生物标志物预测方面均优于或接近监督模型。
📝 摘要(中文)
计算病理学中的基础模型有望推动新型临床决策支持系统和精准医学模型的发展。然而,目前大多数临床分析是在一个或多个全切片图像的层面上定义的,而现有的基础模型通常是分别处理全切片图像中包含的数千个图像切片。需要训练一个网络来聚合多个全切片图像中大量切片的信息,这限制了这些模型的影响。本文提出了一个用于H&E染色组织病理学的切片级别基础模型PRISM,它建立在Virchow切片嵌入的基础上,并利用临床报告文本进行预训练。利用切片嵌入,PRISM生成具有生成临床报告能力的切片级别嵌入,从而产生多种使用模式。通过文本提示,PRISM实现了接近甚至超过监督聚合模型的零样本癌症检测和亚型分类性能。使用带有线性分类器的切片嵌入,PRISM超过了监督聚合模型。此外,我们证明了PRISM切片编码器的微调可以实现生物标志物预测的标签高效训练,这是一项通常因训练数据可用性低而受影响的任务;用PRISM初始化的聚合器,仅用10%的训练数据进行训练,就可以优于使用所有数据的监督基线。
🔬 方法详解
问题定义:现有计算病理学基础模型主要处理图像切片级别的信息,而临床诊断通常需要对整个病理切片进行分析。因此,如何有效地聚合切片级别的信息,并将其与临床报告等其他模态的信息相结合,是当前面临的挑战。现有方法需要大量标注数据进行训练,且泛化能力有限。
核心思路:PRISM的核心思路是构建一个多模态的生成式基础模型,该模型能够学习切片级别的表示,并利用临床报告文本进行预训练,从而提高模型的泛化能力和零样本学习能力。通过将图像和文本信息融合到一个统一的表示空间中,PRISM能够更好地理解病理切片的整体特征。
技术框架:PRISM的整体框架包括以下几个主要模块:1) Virchow切片嵌入模块:用于提取图像切片的特征表示。2) 切片级别编码器:将切片嵌入聚合为切片级别的表示。3) 文本编码器:将临床报告文本编码为文本嵌入。4) 生成器:用于生成临床报告或进行其他下游任务。模型首先使用大量的未标注病理切片和临床报告进行预训练,然后可以在少量标注数据上进行微调,以适应特定的下游任务。
关键创新:PRISM的关键创新在于其多模态的预训练方法和切片级别的表示学习。通过将图像和文本信息融合到一个统一的模型中,PRISM能够更好地理解病理切片的整体特征,并提高模型的泛化能力。此外,PRISM还采用了生成式的方法,使得模型能够生成临床报告,从而实现多种使用模式。
关键设计:PRISM使用了Virchow作为切片嵌入模块,该模块能够有效地提取图像切片的特征表示。切片级别编码器可以使用Transformer或其他序列模型来实现,用于聚合切片嵌入。文本编码器可以使用预训练的语言模型,如BERT或GPT。生成器可以使用Transformer或其他生成模型来实现,用于生成临床报告。损失函数包括图像重建损失、文本生成损失和对比学习损失等,用于优化模型的参数。
📊 实验亮点
PRISM在多个实验中表现出色。在零样本癌症检测和亚型分类任务中,PRISM的性能接近甚至超过了监督聚合模型。在使用线性分类器的切片嵌入任务中,PRISM超过了监督聚合模型。此外,PRISM在生物标志物预测任务中表现出标签高效性,仅使用10%的训练数据进行微调,就可以优于使用所有数据的监督基线。
🎯 应用场景
PRISM具有广泛的应用前景,可用于癌症检测、亚型分类、生物标志物预测等临床任务。该模型可以辅助病理学家进行诊断,提高诊断的准确性和效率。此外,PRISM还可以用于药物研发和个性化治疗,为精准医学提供支持。未来,PRISM有望成为计算病理学领域的重要工具。
📄 摘要(原文)
Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or more whole slide images, and foundation models to date, which process the thousands of image tiles contained in a whole slide image separately. The requirement to train a network to aggregate information across a large number of tiles in multiple whole slide images limits these models' impact. In this work, we present a slide-level foundation model for H&E-stained histopathology, PRISM, that builds on Virchow tile embeddings and leverages clinical report text for pre-training. Using the tile embeddings, PRISM produces slide-level embeddings with the ability to generate clinical reports, resulting in several modes of use. Using text prompts, PRISM achieves zero-shot cancer detection and sub-typing performance approaching and surpassing that of a supervised aggregator model. Using the slide embeddings with linear classifiers, PRISM surpasses supervised aggregator models. Furthermore, we demonstrate that fine-tuning of the PRISM slide encoder yields label-efficient training for biomarker prediction, a task that typically suffers from low availability of training data; an aggregator initialized with PRISM and trained on as little as 10% of the training data can outperform a supervised baseline that uses all of the data.