Foundation Models for Slide-level Cancer Subtyping in Digital Pathology

📄 arXiv: 2410.15886v1 📥 PDF

作者: Pablo Meseguer, Rocío del Amor, Adrian Colomer, Valery Naranjo

分类: cs.CV

发布日期: 2024-10-21

备注: Manuscript accepted for oral presentation at Decision Science Allieance -INternational Summer Conference (DSA-ISC) 2024 held on Valencia, Spain


💡 一句话要点

利用领域预训练的Foundation Model提升数字病理切片级癌症亚型分类性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数字病理 癌症亚型分类 全切片图像 多示例学习 Foundation Model 领域预训练 病理图像分析

📋 核心要点

  1. 现有方法难以将ImageNet预训练模型有效迁移到数字病理领域,原因是领域数据存在显著差异。
  2. 论文提出利用在领域内数据上预训练的Foundation Model,学习组织病理学图像的复杂特征,提升模型性能。
  3. 实验结果表明,对于皮肤癌亚型分类任务,Foundation Model的性能超越了ImageNet预训练模型。

📝 摘要(中文)

由于ImageNet预训练模型能够学习各种视觉特征,预训练和微调方法已在计算机视觉中得到广泛应用。然而,由于领域之间的巨大差距,将这些模型应用于数字病理学等特定领域时,会面临重大挑战。为了解决这个限制,研究者们在大规模领域内数据集上训练了Foundation Model (FM),以学习组织病理学图像的复杂特征。在癌症诊断中,全切片图像(WSI)预测对于患者预后至关重要,并且已经实施了多示例学习(MIL)来处理WSI的千兆像素大小。由于MIL框架依赖于patch级别的特征聚合,因此本研究旨在比较在MIL框架下,针对WSI癌症亚型分类,不同预训练策略下开发的各种特征提取器的性能。结果表明,Foundation Model在预测六种皮肤癌亚型方面优于ImageNet预训练模型。

🔬 方法详解

问题定义:论文旨在解决数字病理学中全切片图像(WSI)的癌症亚型分类问题。现有方法,特别是依赖ImageNet预训练的模型,在处理病理图像时表现不佳,因为自然图像和病理图像之间存在显著的领域差异。这导致模型无法有效提取病理图像中的关键特征,从而影响分类准确性。

核心思路:论文的核心思路是利用在大量病理图像数据上预训练的Foundation Model (FM) 来提取WSI的patch特征。通过领域内的预训练,FM能够更好地捕捉病理图像的特有模式和结构,从而提供更具判别性的特征表示。这些特征随后被用于多示例学习(MIL)框架,以进行WSI级别的癌症亚型分类。

技术框架:整体框架包括以下几个主要步骤:1) 使用Foundation Model或ImageNet预训练模型提取WSI中每个patch的特征;2) 使用MIL框架聚合这些patch级别的特征,生成WSI级别的表示;3) 使用分类器(例如,线性分类器或支持向量机)基于WSI表示进行癌症亚型分类。MIL框架负责处理WSI的大尺寸和patch数量,并学习哪些patch对于最终分类至关重要。

关键创新:最重要的技术创新点在于使用领域预训练的Foundation Model作为特征提取器。与传统的ImageNet预训练模型相比,FM能够更好地适应病理图像的特点,从而提供更有效的特征表示。这种方法避免了直接使用通用视觉特征,而是专注于学习特定于病理图像的特征,从而显著提高了分类性能。

关键设计:论文的关键设计包括:1) 选择合适的Foundation Model架构和预训练策略,以确保模型能够有效地学习病理图像的特征;2) 设计有效的MIL框架,以处理WSI的大尺寸和patch数量,并学习哪些patch对于最终分类至关重要;3) 针对不同的癌症亚型,优化分类器的参数和结构,以获得最佳的分类性能。具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述,需要参考相关的Foundation Model和MIL文献。

📊 实验亮点

实验结果表明,使用Foundation Model作为特征提取器,在六种皮肤癌亚型分类任务中,性能显著优于ImageNet预训练模型。具体的性能提升数据(例如,准确率、F1-score等)需要在论文中查找。该结果验证了领域预训练的有效性,为数字病理图像分析提供了新的思路。

🎯 应用场景

该研究成果可应用于数字病理辅助诊断,帮助病理学家更准确、高效地进行癌症亚型分类,从而为患者提供更精准的治疗方案。未来,该方法有望推广到其他病理图像分析任务,例如肿瘤分级、转移检测等,具有广阔的应用前景。

📄 摘要(原文)

Since the emergence of the ImageNet dataset, the pretraining and fine-tuning approach has become widely adopted in computer vision due to the ability of ImageNet-pretrained models to learn a wide variety of visual features. However, a significant challenge arises when adapting these models to domain-specific fields, such as digital pathology, due to substantial gaps between domains. To address this limitation, foundation models (FM) have been trained on large-scale in-domain datasets to learn the intricate features of histopathology images. In cancer diagnosis, whole-slide image (WSI) prediction is essential for patient prognosis, and multiple instance learning (MIL) has been implemented to handle the giga-pixel size of WSI. As MIL frameworks rely on patch-level feature aggregation, this work aims to compare the performance of various feature extractors developed under different pretraining strategies for cancer subtyping on WSI under a MIL framework. Results demonstrate the ability of foundation models to surpass ImageNet-pretrained models for the prediction of six skin cancer subtypes