Benchmarking Pathology Foundation Models for Breast Cancer Survival Prediction
作者: Fredrik K. Gustafsson, Constance Boissin, Johan Vallon-Christersson, David A. Clifton, Mattias Rantalainen
分类: cs.CV, cs.LG
发布日期: 2026-04-27
💡 一句话要点
大规模基准测试病理学预训练模型在乳腺癌生存预测中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学预训练模型 乳腺癌生存预测 外部验证 基准测试 迁移学习
📋 核心要点
- 现有病理学预训练模型缺乏在乳腺癌生存预测任务上的系统性、大规模的外部验证。
- 论文采用标准化流程,基于patch特征提取和统一生存建模,评估多个PFM的性能。
- 实验表明,H-optimus-1表现最佳,且第二代PFM优于第一代,但性能提升幅度减小。
📝 摘要(中文)
病理学预训练模型(PFMs)作为计算病理学中强大的预训练编码器,能够实现跨多个下游任务的迁移学习。然而,针对具有临床意义的预测问题,特别是外部验证下的生存预测,对这些模型进行系统性比较的研究仍然有限。本研究对广泛使用和新提出的PFMs在乳腺癌全切片组织病理图像生存预测中的性能进行了基准测试。我们采用基于patch级别特征提取和统一生存建模框架的标准化流程,在包含超过5400名患者的三个独立临床队列中评估了模型表示,并进行了长期随访。模型在一个队列上训练,并在两个独立的外部队列上进行评估,从而能够严格评估跨数据集的泛化能力。总体而言,H-optimus-1实现了最强的生存预测性能。更广泛地说,我们观察到模型家族之间存在持续的代际改进,第二代PFM优于第一代PFM。然而,许多最新PFM之间的绝对性能差异仍然不大,表明仅通过进一步扩展预训练数据或模型大小带来的收益正在递减。值得注意的是,紧凑的蒸馏模型H0-mini略优于其较大的教师模型H-optimus-0,尽管其参数数量不到后者的8%,并且能够显著加快特征提取速度。总之,这些结果提供了首个大规模、经过外部验证的PFM乳腺癌生存预测基准,并为在临床工作流程中高效部署PFM提供了实践指导。
🔬 方法详解
问题定义:论文旨在解决乳腺癌生存预测问题,现有方法缺乏对病理学预训练模型(PFMs)的系统性评估,尤其是在外部验证数据集上的泛化能力。现有研究难以指导临床工作流程中PFM的有效部署。
核心思路:论文的核心思路是通过构建一个标准化的评估流程,在大规模的乳腺癌病理图像数据集上,对多个主流和最新的PFMs进行基准测试,从而系统性地比较它们的生存预测性能和泛化能力。通过外部验证,评估模型在不同数据集上的表现,从而更客观地反映模型的实际应用价值。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集并预处理三个独立的乳腺癌临床队列的全切片组织病理图像。2) 特征提取:使用不同的PFMs(如H-optimus-1, H0-mini等)提取图像patch级别的特征表示。3) 生存建模:将提取的特征输入到统一的生存建模框架中,预测患者的生存概率。4) 性能评估:使用C-index等指标评估模型在训练集和外部验证集上的生存预测性能。
关键创新:论文的主要创新在于:1) 构建了首个大规模、外部验证的PFM乳腺癌生存预测基准。2) 系统性地比较了多个主流和最新的PFMs,揭示了模型性能的代际改进趋势和性能瓶颈。3) 发现紧凑的蒸馏模型H0-mini在性能上可以与更大的模型相媲美,甚至略有超越,为PFM的轻量化部署提供了新的思路。
关键设计:论文的关键设计包括:1) 使用统一的patch级别特征提取方法,保证不同PFM的输入一致性。2) 采用统一的生存建模框架,消除因建模方法不同带来的性能差异。3) 在三个独立的临床队列上进行评估,确保结果的可靠性和泛化能力。4) 重点关注外部验证集上的性能,更客观地反映模型的实际应用价值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,H-optimus-1在乳腺癌生存预测任务中表现最佳。同时,第二代PFM普遍优于第一代。值得注意的是,紧凑的蒸馏模型H0-mini在参数量仅为H-optimus-0的8%的情况下,性能与其相当甚至略优,为PFM的轻量化部署提供了可能。
🎯 应用场景
该研究成果可应用于临床辅助诊断,帮助医生更准确地预测乳腺癌患者的生存概率,从而制定更个性化的治疗方案。此外,该基准测试结果可以指导研究人员选择合适的PFM,并推动病理学预训练模型在临床实践中的应用,加速计算病理学的发展。
📄 摘要(原文)
Pathology foundation models (PFMs) have recently emerged as powerful pretrained encoders for computational pathology, enabling transfer learning across a wide range of downstream tasks. However, systematic comparisons of these models for clinically meaningful prediction problems remain limited, especially in the context of survival prediction under external validation. In this study, we benchmark widely used and recently proposed PFMs for breast cancer survival prediction from whole-slide histopathology images. Using a standardized pipeline based on patch-level feature extraction and a unified survival modeling framework, we evaluate model representations across three independent clinical cohorts comprising more than 5,400 patients with long-term follow-up. Models are trained on one cohort and evaluated on two independent external cohorts, enabling a rigorous assessment of cross-dataset generalization. Overall, H-optimus-1 achieves the strongest survival prediction performance. More broadly, we observe consistent generational improvements across model families, with second-generation PFMs outperforming their first-generation counterparts. However, absolute performance differences between many recent PFMs remain modest, suggesting diminishing returns from further scaling of pretraining data or model size alone. Notably, the compact distilled model H0-mini slightly outperforms its larger teacher model H-optimus-0, despite using fewer than 8% of the parameters and enabling significantly faster feature extraction. Together, these results provide the first large-scale, externally validated benchmark of PFMs for breast cancer survival prediction, and offer practical guidance for efficient deployment of PFMs in clinical workflows.