Foundation Models for Slide-level Cancer Subtyping in Digital Pathology

作者: Pablo Meseguer, Rocío del Amor, Adrian Colomer, Valery Naranjo

分类: cs.CV

发布日期: 2024-10-21

备注: Manuscript accepted for oral presentation at Decision Science Allieance -INternational Summer Conference (DSA-ISC) 2024 held on Valencia, Spain

💡 一句话要点

利用领域预训练的Foundation Model提升数字病理切片级癌症亚型分类性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字病理 癌症亚型分类 全切片图像 多示例学习 Foundation Model 领域预训练 病理图像分析

📋 核心要点

现有方法难以将ImageNet预训练模型有效迁移到数字病理领域，原因是领域数据存在显著差异。
论文提出利用在领域内数据上预训练的Foundation Model，学习组织病理学图像的复杂特征，提升模型性能。
实验结果表明，对于皮肤癌亚型分类任务，Foundation Model的性能超越了ImageNet预训练模型。

📝 摘要（中文）

由于ImageNet预训练模型能够学习各种视觉特征，预训练和微调方法已在计算机视觉中得到广泛应用。然而，由于领域之间的巨大差距，将这些模型应用于数字病理学等特定领域时，会面临重大挑战。为了解决这个限制，研究者们在大规模领域内数据集上训练了Foundation Model (FM)，以学习组织病理学图像的复杂特征。在癌症诊断中，全切片图像（WSI）预测对于患者预后至关重要，并且已经实施了多示例学习（MIL）来处理WSI的千兆像素大小。由于MIL框架依赖于patch级别的特征聚合，因此本研究旨在比较在MIL框架下，针对WSI癌症亚型分类，不同预训练策略下开发的各种特征提取器的性能。结果表明，Foundation Model在预测六种皮肤癌亚型方面优于ImageNet预训练模型。

🔬 方法详解

问题定义：论文旨在解决数字病理学中全切片图像（WSI）的癌症亚型分类问题。现有方法，特别是依赖ImageNet预训练的模型，在处理病理图像时表现不佳，因为自然图像和病理图像之间存在显著的领域差异。这导致模型无法有效提取病理图像中的关键特征，从而影响分类准确性。

核心思路：论文的核心思路是利用在大量病理图像数据上预训练的Foundation Model (FM) 来提取WSI的patch特征。通过领域内的预训练，FM能够更好地捕捉病理图像的特有模式和结构，从而提供更具判别性的特征表示。这些特征随后被用于多示例学习（MIL）框架，以进行WSI级别的癌症亚型分类。

技术框架：整体框架包括以下几个主要步骤：1) 使用Foundation Model或ImageNet预训练模型提取WSI中每个patch的特征；2) 使用MIL框架聚合这些patch级别的特征，生成WSI级别的表示；3) 使用分类器（例如，线性分类器或支持向量机）基于WSI表示进行癌症亚型分类。MIL框架负责处理WSI的大尺寸和patch数量，并学习哪些patch对于最终分类至关重要。

关键创新：最重要的技术创新点在于使用领域预训练的Foundation Model作为特征提取器。与传统的ImageNet预训练模型相比，FM能够更好地适应病理图像的特点，从而提供更有效的特征表示。这种方法避免了直接使用通用视觉特征，而是专注于学习特定于病理图像的特征，从而显著提高了分类性能。

关键设计：论文的关键设计包括：1) 选择合适的Foundation Model架构和预训练策略，以确保模型能够有效地学习病理图像的特征；2) 设计有效的MIL框架，以处理WSI的大尺寸和patch数量，并学习哪些patch对于最终分类至关重要；3) 针对不同的癌症亚型，优化分类器的参数和结构，以获得最佳的分类性能。具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述，需要参考相关的Foundation Model和MIL文献。

📊 实验亮点

实验结果表明，使用Foundation Model作为特征提取器，在六种皮肤癌亚型分类任务中，性能显著优于ImageNet预训练模型。具体的性能提升数据（例如，准确率、F1-score等）需要在论文中查找。该结果验证了领域预训练的有效性，为数字病理图像分析提供了新的思路。

🎯 应用场景

该研究成果可应用于数字病理辅助诊断，帮助病理学家更准确、高效地进行癌症亚型分类，从而为患者提供更精准的治疗方案。未来，该方法有望推广到其他病理图像分析任务，例如肿瘤分级、转移检测等，具有广阔的应用前景。

📄 摘要（原文）

Since the emergence of the ImageNet dataset, the pretraining and fine-tuning approach has become widely adopted in computer vision due to the ability of ImageNet-pretrained models to learn a wide variety of visual features. However, a significant challenge arises when adapting these models to domain-specific fields, such as digital pathology, due to substantial gaps between domains. To address this limitation, foundation models (FM) have been trained on large-scale in-domain datasets to learn the intricate features of histopathology images. In cancer diagnosis, whole-slide image (WSI) prediction is essential for patient prognosis, and multiple instance learning (MIL) has been implemented to handle the giga-pixel size of WSI. As MIL frameworks rely on patch-level feature aggregation, this work aims to compare the performance of various feature extractors developed under different pretraining strategies for cancer subtyping on WSI under a MIL framework. Results demonstrate the ability of foundation models to surpass ImageNet-pretrained models for the prediction of six skin cancer subtypes

Foundation Models for Slide-level Cancer Subtyping in Digital Pathology

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理