Scanner-Induced Domain Shifts Undermine the Robustness of Pathology Foundation Models

📄 arXiv: 2601.04163v1 📥 PDF

作者: Erik Thiringer, Fredrik K. Gustafsson, Kajsa Ledesma Eriksson, Mattias Rantalainen

分类: eess.IV, cs.CV, cs.LG

发布日期: 2026-01-07


💡 一句话要点

揭示病理学预训练模型对扫描仪差异的脆弱性,强调校准和嵌入稳定性的重要性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学预训练模型 领域偏移 扫描仪差异 鲁棒性评估 嵌入稳定性

📋 核心要点

  1. 现有的病理学预训练模型在面对不同扫描仪产生的图像时,鲁棒性不足,导致模型性能下降。
  2. 通过多扫描仪数据集,论文隔离并评估了不同预训练模型对扫描仪差异的敏感性,着重分析嵌入空间和预测校准。
  3. 实验表明,模型对扫描仪差异敏感,嵌入空间受影响,预测校准出现偏差,且鲁棒性与模型大小、训练数据量无直接关系。

📝 摘要(中文)

病理学预训练模型(PFMs)已成为计算病理学的核心,旨在为全切片图像(WSIs)提供通用的特征提取编码器。尽管基准测试表现强劲,但PFM对真实世界技术领域偏移(如全切片扫描仪设备的可变性)的鲁棒性仍然知之甚少。我们系统地评估了14个PFM对扫描仪引起的可变性的鲁棒性,包括最先进的模型、早期的自监督模型以及在自然图像上训练的基线模型。使用包含384个乳腺癌WSI的多扫描仪数据集(在五个设备上扫描),我们独立于生物学和实验室混杂因素隔离了扫描仪的影响。通过互补的无监督嵌入分析和一组临床病理监督预测任务评估了鲁棒性。结果表明,当前的PFM对扫描仪引起的领域偏移并不具有不变性。大多数模型在其嵌入空间中编码了明显的扫描仪特定可变性。虽然AUC通常保持稳定,但这掩盖了一个关键的失效模式:扫描仪可变性系统地改变了嵌入空间,并影响下游模型预测的校准,从而导致扫描仪相关的偏差,这会影响临床用例的可靠性。我们进一步表明,鲁棒性不是训练数据规模、模型大小或模型新近程度的简单函数。没有一个模型提供可靠的鲁棒性来对抗扫描仪引起的可变性。虽然在最多样化数据上训练的模型(此处由视觉-语言模型表示)在鲁棒性方面似乎具有优势,但它们在下游监督任务上的表现不佳。我们得出结论,PFM的开发和评估需要超越以准确性为中心的基准,转向对现实采集可变性下的嵌入稳定性和校准的显式评估和优化。

🔬 方法详解

问题定义:论文旨在解决病理学预训练模型(PFMs)在面对由不同全切片扫描仪产生的图像时,鲁棒性不足的问题。现有方法通常只关注模型在标准数据集上的准确性,而忽略了实际应用中扫描仪差异带来的领域偏移,这会导致模型性能下降,甚至产生误诊风险。

核心思路:论文的核心思路是系统性地评估PFMs对扫描仪差异的敏感性,并分析这种差异如何影响模型的嵌入空间和下游预测任务的校准。通过构建一个多扫描仪数据集,论文能够独立地研究扫描仪的影响,并揭示现有PFMs在面对真实世界技术领域偏移时的脆弱性。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建多扫描仪数据集:收集同一批乳腺癌WSI,使用五个不同的扫描仪进行扫描。2) 选择PFMs:选取14个具有代表性的PFMs,包括自监督模型、视觉-语言模型和在自然图像上训练的基线模型。3) 嵌入分析:使用无监督方法分析PFMs生成的嵌入空间,观察是否存在扫描仪相关的聚类。4) 监督预测任务:在临床病理监督预测任务上评估PFMs的性能,并分析扫描仪差异对预测结果的影响。5) 校准分析:评估模型预测的校准程度,观察扫描仪差异是否会导致预测偏差。

关键创新:论文的关键创新在于:1) 系统性地评估了PFMs对扫描仪差异的鲁棒性,揭示了现有模型在真实世界应用中的局限性。2) 强调了嵌入稳定性和校准在PFM评估中的重要性,提出了超越准确性指标的评估标准。3) 构建了一个多扫描仪数据集,为后续研究提供了宝贵的数据资源。

关键设计:论文的关键设计包括:1) 使用多扫描仪数据集来隔离扫描仪的影响,避免生物学和实验室混杂因素的干扰。2) 使用互补的无监督嵌入分析和监督预测任务来全面评估模型的鲁棒性。3) 关注模型预测的校准程度,揭示扫描仪差异对预测偏差的影响。

📊 实验亮点

实验结果表明,现有PFM对扫描仪差异敏感,嵌入空间受扫描仪影响,预测校准出现偏差。即使AUC指标稳定,也掩盖了扫描仪引起的偏差。视觉-语言模型在鲁棒性方面略有优势,但在下游任务中表现不佳。研究强调,鲁棒性与模型大小、训练数据量无直接关系,需关注嵌入稳定性和校准。

🎯 应用场景

该研究成果对计算病理学领域具有重要意义,提醒研究人员和临床医生关注扫描仪差异对病理学AI模型的影响。未来的研究可以集中在开发对扫描仪差异具有鲁棒性的PFM,从而提高模型在临床实践中的可靠性和泛化能力。这有助于减少误诊,提高诊断效率,并最终改善患者的治疗效果。

📄 摘要(原文)

Pathology foundation models (PFMs) have become central to computational pathology, aiming to offer general encoders for feature extraction from whole-slide images (WSIs). Despite strong benchmark performance, PFM robustness to real-world technical domain shifts, such as variability from whole-slide scanner devices, remains poorly understood. We systematically evaluated the robustness of 14 PFMs to scanner-induced variability, including state-of-the-art models, earlier self-supervised models, and a baseline trained on natural images. Using a multiscanner dataset of 384 breast cancer WSIs scanned on five devices, we isolated scanner effects independently from biological and laboratory confounders. Robustness is assessed via complementary unsupervised embedding analyses and a set of clinicopathological supervised prediction tasks. Our results demonstrate that current PFMs are not invariant to scanner-induced domain shifts. Most models encode pronounced scanner-specific variability in their embedding spaces. While AUC often remains stable, this masks a critical failure mode: scanner variability systematically alters the embedding space and impacts calibration of downstream model predictions, resulting in scanner-dependent bias that can impact reliability in clinical use cases. We further show that robustness is not a simple function of training data scale, model size, or model recency. None of the models provided reliable robustness against scanner-induced variability. While the models trained on the most diverse data, here represented by vision-language models, appear to have an advantage with respect to robustness, they underperformed on downstream supervised tasks. We conclude that development and evaluation of PFMs requires moving beyond accuracy-centric benchmarks toward explicit evaluation and optimisation of embedding stability and calibration under realistic acquisition variability.