PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks

📄 arXiv: 2503.24345v1 📥 PDF

作者: Fang Yan, Jianfeng Wu, Jiawen Li, Wei Wang, Jiaxuan Lu, Wen Chen, Zizhao Gao, Jianan Li, Hong Yan, Jiabo Ma, Minda Chen, Yang Lu, Qing Chen, Yizhi Wang, Xitong Ling, Xuenian Wang, Zihan Wang, Qiang Huang, Shengyi Hua, Mianxin Liu, Lei Ma, Tian Shen, Xiaofan Zhang, Yonghong He, Hao Chen, Shaoting Zhang, Zhe Wang

分类: cs.CV

发布日期: 2025-03-31


💡 一句话要点

PathOrchestra:一个用于计算病理学的综合基础模型,支持超过100项临床任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算病理学 基础模型 自监督学习 泛癌分类 结构化报告 临床应用 病理图像分析

📋 核心要点

  1. 计算病理学面临高分辨率病理图像复杂性和变异性的挑战,现有方法需要大量标注数据和计算资源。
  2. PathOrchestra通过自监督学习在30万张病理切片上训练,无需大量人工标注,降低了对标注数据的依赖。
  3. PathOrchestra在112项临床任务中表现出色,包括泛癌分类、病灶识别等,并在多个任务中达到高精度。

📝 摘要(中文)

计算病理学中高分辨率病理图像的复杂性和可变性带来了巨大挑战。虽然利用人工智能的病理学基础模型推动了变革性进展,但其开发需要大规模数据集、可观的存储容量和大量的计算资源。此外,确保其临床适用性和泛化性需要在广泛的临床任务中进行严格验证。本文提出了PathOrchestra,一个通用的病理学基础模型,通过自监督学习在包含来自多个中心的20种组织和器官类型的30万张病理切片的数据集上进行训练。该模型使用61个私有数据集和51个公共数据集的组合,在112个临床任务上进行了严格评估。这些任务包括数字切片预处理、泛癌分类、病灶识别、多癌亚型分类、生物标志物评估、基因表达预测和结构化报告的生成。PathOrchestra在27,755张WSI和9,415,729个ROI上表现出卓越的性能,在47个任务中实现了超过0.950的准确率,包括各种器官的泛癌分类、淋巴瘤亚型诊断和膀胱癌筛查。值得注意的是,它是第一个为高发结直肠癌和诊断复杂的淋巴瘤生成结构化报告的模型——这些领域很少被基础模型解决,但具有巨大的临床潜力。总的来说,PathOrchestra证明了大规模自监督病理学基础模型的可行性和有效性,并在广泛的临床级任务中得到了验证。其高精度和对大量数据注释的减少依赖突出了其临床整合的潜力,为更高效和高质量的医疗服务提供了一条途径。

🔬 方法详解

问题定义:计算病理学中,高分辨率病理图像的分析面临着数据量大、标注成本高、图像复杂多样等问题。现有的方法往往依赖于大量的人工标注数据,这限制了模型的泛化能力和应用范围。此外,针对不同类型的病理图像,需要训练不同的模型,缺乏一个通用的解决方案。

核心思路:PathOrchestra的核心思路是利用自监督学习,从大量的无标注病理图像中学习通用的特征表示。通过预训练一个强大的基础模型,然后针对不同的下游任务进行微调,从而减少对标注数据的依赖,提高模型的泛化能力和效率。这种方法借鉴了自然语言处理领域中预训练语言模型的成功经验。

技术框架:PathOrchestra的整体框架包括以下几个主要阶段:1) 数据收集与预处理:收集来自多个中心的病理切片数据,进行必要的预处理,如图像分割、归一化等。2) 自监督预训练:使用自监督学习方法,在大规模无标注数据上训练基础模型。3) 下游任务微调:针对不同的临床任务,使用少量标注数据对预训练模型进行微调。4) 模型评估与验证:在多个数据集上评估模型的性能,并进行临床验证。

关键创新:PathOrchestra的关键创新在于:1) 构建了一个大规模的病理图像数据集,包含来自多个中心、多种组织和器官类型的30万张病理切片。2) 采用自监督学习方法,有效利用了大量的无标注数据,降低了对标注数据的依赖。3) 提出了一个通用的病理学基础模型,可以应用于多种临床任务,如泛癌分类、病灶识别、生物标志物评估等。4) 首次实现了为高发结直肠癌和诊断复杂的淋巴瘤生成结构化报告。

关键设计:PathOrchestra在自监督预训练阶段采用了对比学习的方法,通过最大化同一张切片的不同区域之间的相似性,最小化不同切片区域之间的相似性,来学习图像的特征表示。具体来说,使用了SimCLR框架,并针对病理图像的特点进行了优化。在下游任务微调阶段,使用了交叉熵损失函数和Adam优化器。模型的网络结构采用了Transformer架构,并根据病理图像的特点进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PathOrchestra在112个临床任务上进行了评估,在47个任务中实现了超过0.950的准确率,包括泛癌分类、淋巴瘤亚型诊断和膀胱癌筛查。尤其值得一提的是,它是第一个能够为高发结直肠癌和诊断复杂的淋巴瘤生成结构化报告的模型,这在以往的研究中很少被涉及。

🎯 应用场景

PathOrchestra在计算病理学领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、预后预测和治疗方案制定。通过自动分析病理图像,可以提高诊断效率和准确性,减少人为误差。此外,该模型还可以用于药物研发,例如预测药物的疗效和毒性。未来,PathOrchestra有望成为临床实践中不可或缺的工具,推动精准医疗的发展。

📄 摘要(原文)

The complexity and variability inherent in high-resolution pathological images present significant challenges in computational pathology. While pathology foundation models leveraging AI have catalyzed transformative advancements, their development demands large-scale datasets, considerable storage capacity, and substantial computational resources. Furthermore, ensuring their clinical applicability and generalizability requires rigorous validation across a broad spectrum of clinical tasks. Here, we present PathOrchestra, a versatile pathology foundation model trained via self-supervised learning on a dataset comprising 300K pathological slides from 20 tissue and organ types across multiple centers. The model was rigorously evaluated on 112 clinical tasks using a combination of 61 private and 51 public datasets. These tasks encompass digital slide preprocessing, pan-cancer classification, lesion identification, multi-cancer subtype classification, biomarker assessment, gene expression prediction, and the generation of structured reports. PathOrchestra demonstrated exceptional performance across 27,755 WSIs and 9,415,729 ROIs, achieving over 0.950 accuracy in 47 tasks, including pan-cancer classification across various organs, lymphoma subtype diagnosis, and bladder cancer screening. Notably, it is the first model to generate structured reports for high-incidence colorectal cancer and diagnostically complex lymphoma-areas that are infrequently addressed by foundational models but hold immense clinical potential. Overall, PathOrchestra exemplifies the feasibility and efficacy of a large-scale, self-supervised pathology foundation model, validated across a broad range of clinical-grade tasks. Its high accuracy and reduced reliance on extensive data annotation underline its potential for clinical integration, offering a pathway toward more efficient and high-quality medical services.