PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

📄 arXiv: 2505.20202v1 📥 PDF

作者: Jiabo Ma, Yingxue Xu, Fengtao Zhou, Yihui Wang, Cheng Jin, Zhengrui Guo, Jianfeng Wu, On Ki Tang, Huajun Zhou, Xi Wang, Luyang Luo, Zhengyu Zhang, Du Cai, Zizhao Gao, Wei Wang, Yueping Liu, Jiankun He, Jing Cui, Zhenhui Li, Jing Zhang, Feng Gao, Xiuming Zhang, Li Liang, Ronald Cheong Kin Chan, Zhe Wang, Hao Chen

分类: cs.CV

发布日期: 2025-05-26

备注: 35 pages, 9 figures


💡 一句话要点

PathBench:病理学基础模型全面评测基准,助力精准肿瘤学

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学基础模型 全切片图像 精准肿瘤学 基准测试 数据泄露 癌症诊断 预后评估

📋 核心要点

  1. 现有病理学基础模型缺乏在不同癌症类型上的泛化能力,且评估过程存在数据泄露风险,阻碍了临床应用。
  2. PathBench构建了多中心、大规模的病理图像数据集,并设计了严格的数据泄露预防机制,用于全面评估病理学基础模型。
  3. 实验结果表明,Virchow2和H-Optimus-1在PathBench基准上表现最佳,为模型选择和临床应用提供了参考。

📝 摘要(中文)

病理学基础模型的出现彻底改变了计算组织病理学,实现了高精度、广义的全切片图像分析,从而改进了癌症诊断和预后评估。尽管这些模型在癌症诊断和预后方面显示出巨大的潜力,但它们的临床转化面临着严峻的挑战,包括不同癌症类型最佳模型的差异、评估中潜在的数据泄露以及缺乏标准化基准。为了解决这些问题,我们提出了PathBench,这是第一个全面的基准,它通过多中心内部数据集(涵盖常见癌症并严格防止数据泄露)、跨越从诊断到预后的完整临床范围的评估以及用于持续模型评估的自动化排行榜系统来解决这些差距。我们的框架整合了大规模数据,能够客观地比较PFM,同时反映了真实世界的临床复杂性。所有评估数据均来自私人医疗机构,并严格排除任何预训练使用,以避免数据泄露风险。我们收集了来自10家医院的8549名患者的15888张WSI,涵盖64个以上的诊断和预后任务。目前,我们对19个PFM的评估表明,Virchow2和H-Optimus-1是总体上最有效的模型。这项工作为研究人员提供了一个强大的模型开发平台,并为临床医生提供了关于PFM在不同临床场景中性能的可操作见解,最终加速了这些变革性技术向常规病理学实践的转化。

🔬 方法详解

问题定义:现有病理学基础模型(PFM)在临床转化中面临挑战,主要体现在:一是不同癌症类型之间,最优模型存在差异;二是模型评估过程中可能存在数据泄露,导致评估结果偏差;三是缺乏统一、标准的评测基准,难以客观比较不同PFM的性能。这些问题阻碍了PFM在实际临床中的应用。

核心思路:PathBench的核心思路是构建一个全面、客观、无数据泄露风险的病理学基础模型评测基准。通过整合多中心、大规模的病理图像数据,并设计涵盖诊断、预后等多个临床任务的评估体系,为PFM的开发和选择提供可靠的依据。

技术框架:PathBench框架主要包含以下几个部分:1) 数据集构建:收集来自10家医院的病理图像数据,涵盖多种常见癌症类型,共计15888张WSI,来自8549名患者。2) 数据泄露预防:严格排除任何预训练数据的使用,确保评估的客观性。3) 任务定义:定义了64个以上的诊断和预后任务,覆盖了病理学临床应用的各个方面。4) 评估指标:选择合适的评估指标,用于衡量PFM在不同任务上的性能。5) 自动化排行榜:建立自动化排行榜系统,用于持续评估和比较不同PFM的性能。

关键创新:PathBench的关键创新在于:1) 数据集的全面性:涵盖多种癌症类型和临床任务,更贴近真实临床场景。2) 数据泄露的严格控制:确保评估结果的客观性和可靠性。3) 评估任务的完整性:覆盖从诊断到预后的完整临床流程。4) 自动化排行榜的持续性:为PFM的持续改进和优化提供平台。

关键设计:PathBench的关键设计包括:1) 多中心数据收集:确保数据集的多样性和代表性。2) 严格的数据清洗和标注:保证数据的质量和准确性。3) 任务选择的临床相关性:确保评估任务能够反映PFM在实际临床中的应用价值。4) 评估指标的合理性:选择能够有效衡量PFM性能的指标,如AUC、F1-score等。5) 排行榜的自动化更新:方便研究人员及时了解最新模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PathBench对19个病理学基础模型进行了评估,结果显示Virchow2和H-Optimus-1在总体性能上表现最佳。该基准提供了详细的性能数据,可用于比较不同模型在各种诊断和预后任务中的表现,为临床医生选择合适的模型提供了依据。

🎯 应用场景

PathBench的潜在应用领域包括:加速病理学基础模型在癌症诊断、预后评估和治疗方案选择中的应用;为临床医生提供选择最佳模型的依据;促进病理学人工智能研究的标准化和可重复性;推动精准肿瘤学的发展,最终改善患者的治疗效果。

📄 摘要(原文)

The emergence of pathology foundation models has revolutionized computational histopathology, enabling highly accurate, generalized whole-slide image analysis for improved cancer diagnosis, and prognosis assessment. While these models show remarkable potential across cancer diagnostics and prognostics, their clinical translation faces critical challenges including variability in optimal model across cancer types, potential data leakage in evaluation, and lack of standardized benchmarks. Without rigorous, unbiased evaluation, even the most advanced PFMs risk remaining confined to research settings, delaying their life-saving applications. Existing benchmarking efforts remain limited by narrow cancer-type focus, potential pretraining data overlaps, or incomplete task coverage. We present PathBench, the first comprehensive benchmark addressing these gaps through: multi-center in-hourse datasets spanning common cancers with rigorous leakage prevention, evaluation across the full clinical spectrum from diagnosis to prognosis, and an automated leaderboard system for continuous model assessment. Our framework incorporates large-scale data, enabling objective comparison of PFMs while reflecting real-world clinical complexity. All evaluation data comes from private medical providers, with strict exclusion of any pretraining usage to avoid data leakage risks. We have collected 15,888 WSIs from 8,549 patients across 10 hospitals, encompassing over 64 diagnosis and prognosis tasks. Currently, our evaluation of 19 PFMs shows that Virchow2 and H-Optimus-1 are the most effective models overall. This work provides researchers with a robust platform for model development and offers clinicians actionable insights into PFM performance across diverse clinical scenarios, ultimately accelerating the translation of these transformative technologies into routine pathology practice.