Tissue Concepts: supervised foundation models in computational pathology

📄 arXiv: 2409.03519v2 📥 PDF

作者: Till Nicke, Jan Raphael Schaefer, Henning Hoefener, Friedrich Feuerhake, Dorit Merhof, Fabian Kiessling, Johannes Lotz

分类: eess.IV, cs.CV

发布日期: 2024-09-05 (更新: 2024-11-15)

备注: 22 Pages, 3 Figures, submitted to and under revision at Computers in Biology and Medicine

DOI: 10.1016/j.compbiomed.2024.109621


💡 一句话要点

提出Tissue Concepts:一种基于监督学习的病理计算领域预训练模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理计算 预训练模型 多任务学习 监督学习 全切片图像 肿瘤诊断 深度学习

📋 核心要点

  1. 病理诊断工作量大,对自动化辅助诊断和生物标志物评估需求迫切,现有方法泛化性不足。
  2. 提出Tissue Concepts,通过多任务监督学习训练联合编码器,降低预训练成本,提升模型泛化性。
  3. 实验表明,Tissue Concepts模型性能与自监督模型相当,但仅需6%的训练数据,且优于ImageNet预训练模型。

📝 摘要(中文)

病理科医生日益增长的工作量使得自动化辅助诊断和定量生物标志物评估的需求变得越来越明显。预训练模型有潜力提高中心内部和跨中心的泛化能力,并为高效开发专业且鲁棒的AI模型提供起点。然而,训练预训练模型本身通常在数据、计算和时间方面非常昂贵。本文提出了一种监督训练方法,可以显著降低这些成本。该方法基于多任务学习训练联合编码器,通过结合912,000个patch上的16个不同的分类、分割和检测任务。由于编码器能够捕获样本的属性,因此我们将其称为Tissue Concepts编码器。为了评估Tissue Concepts编码器在不同中心的性能和泛化能力,使用了四种最常见的实体肿瘤(乳腺癌、结肠癌、肺癌和前列腺癌)的全切片图像分类。实验表明,Tissue Concepts模型实现了与使用自监督训练的模型相当的性能,同时仅需要6%的训练patch数量。此外,Tissue Concepts编码器在领域内和领域外数据上的表现均优于ImageNet预训练编码器。

🔬 方法详解

问题定义:病理图像分析任务面临数据量大、标注成本高、不同中心数据分布差异大的问题,导致模型泛化能力受限。现有预训练模型训练成本高昂,难以在病理领域应用。

核心思路:利用多任务学习,通过监督方式训练一个通用的Tissue Concepts编码器,使其能够捕获病理图像中的关键特征。相比于自监督学习,监督学习能够更有效地利用标注信息,降低训练数据需求。

技术框架:该方法的核心是训练一个联合编码器,该编码器通过同时执行16个不同的任务(包括分类、分割和检测)进行训练。这些任务涵盖了病理图像分析中的常见任务,例如肿瘤类型分类、细胞分割和特定结构检测。训练数据包含来自多个中心的912,000个图像patch。

关键创新:该方法的核心创新在于使用多任务监督学习的方式训练病理图像的预训练模型。与传统的自监督学习方法相比,该方法能够更有效地利用标注信息,从而在更少的数据量下达到更好的性能。此外,多任务学习能够提高模型的泛化能力,使其能够更好地适应不同中心的数据分布。

关键设计:具体来说,编码器采用常见的卷积神经网络结构(具体结构未知),损失函数由16个任务的损失函数加权求和得到。每个任务的权重可以根据任务的重要性和难度进行调整。训练过程中,使用Adam优化器进行优化,学习率等超参数需要根据具体实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Tissue Concepts模型在四种常见实体肿瘤的分类任务上取得了与自监督模型相当的性能,但仅使用了6%的训练数据。此外,Tissue Concepts模型在领域内和领域外数据上的表现均优于ImageNet预训练模型,证明了其良好的泛化能力。具体的性能指标(如AUC、准确率等)未知。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统,帮助病理科医生提高诊断效率和准确性,尤其是在肿瘤诊断和生物标志物评估方面。此外,该方法还可以推广到其他医学图像分析领域,例如放射影像学和眼科图像分析。未来,可以进一步探索如何将该方法与弱监督学习和主动学习相结合,以进一步降低标注成本。

📄 摘要(原文)

Due to the increasing workload of pathologists, the need for automation to support diagnostic tasks and quantitative biomarker evaluation is becoming more and more apparent. Foundation models have the potential to improve generalizability within and across centers and serve as starting points for data efficient development of specialized yet robust AI models. However, the training foundation models themselves is usually very expensive in terms of data, computation, and time. This paper proposes a supervised training method that drastically reduces these expenses. The proposed method is based on multi-task learning to train a joint encoder, by combining 16 different classification, segmentation, and detection tasks on a total of 912,000 patches. Since the encoder is capable of capturing the properties of the samples, we term it the Tissue Concepts encoder. To evaluate the performance and generalizability of the Tissue Concepts encoder across centers, classification of whole slide images from four of the most prevalent solid cancers - breast, colon, lung, and prostate - was used. The experiments show that the Tissue Concepts model achieve comparable performance to models trained with self-supervision, while requiring only 6% of the amount of training patches. Furthermore, the Tissue Concepts encoder outperforms an ImageNet pre-trained encoder on both in-domain and out-of-domain data.