Training state-of-the-art pathology foundation models with orders of magnitude less data

作者: Mikhail Karasikov, Joost van Doorn, Nicolas Känzig, Melis Erdal Cesur, Hugo Mark Horlings, Robert Berke, Fei Tang, Sebastian Otálora

分类: cs.CV, cs.LG

发布日期: 2025-04-07

备注: 10 pages, 3 figures

💡 一句话要点

利用远少于SOTA模型的数据，训练出具有竞争力的病理学基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 计算病理学 基础模型 自监督学习 DINOv2 迁移学习

📋 核心要点

现有病理学基础模型依赖大量数据，训练成本高昂，限制了其应用和发展。
论文通过改进DINOv2框架，并结合高分辨率图像微调，优化病理学基础模型的训练。
实验表明，使用远少于SOTA模型的数据，训练出的模型在下游任务上表现出相当甚至更优的性能。

📝 摘要（中文）

计算病理学领域近年来发展迅速，这得益于现代视觉基础模型（FMs）的进步，这些模型通常在大量的病理图像集合上进行训练。最近的研究表明，增加训练数据集和模型大小，并整合领域特定的图像处理技术，可以显著提高模型在下游任务中的性能。基于这些见解，本文结合了文献中对标准DINOv2框架的几项最新修改，以优化病理学FM的训练。我们还应用了一种后训练程序，用于在更高分辨率的图像上微调模型，以进一步丰富嵌入中编码的信息。我们提出了三个新的病理学FM，它们在比用于训练其他最先进FM的WSI少两个数量级的情况下进行训练，同时在下游任务上表现出相当或优越的性能。即使是仅在TCGA（12k WSI）上训练的模型也优于大多数现有的FM，并且平均而言，与迄今为止发布的第二好的FM Virchow2 相匹配。这表明，在改进用于训练病理学FM的模型和算法方面，仍然存在巨大的潜力，以充分利用庞大的数据集合。

🔬 方法详解

问题定义：现有计算病理学的基础模型训练依赖于海量的病理图像数据，这导致训练成本高昂，并且使得模型难以在数据资源有限的场景下应用。现有方法在数据利用效率方面存在不足，需要探索更高效的训练策略，以减少对大规模数据集的依赖。

核心思路：论文的核心思路是通过优化现有的自监督学习框架DINOv2，并结合领域特定的图像处理技术，来提高病理学基础模型的数据利用效率。通过对DINOv2进行改进，并采用高分辨率图像微调等策略，使得模型能够在较小的数据集上学习到更丰富的病理特征表示。

技术框架：论文的技术框架主要包括以下几个阶段：1) 基于DINOv2框架进行改进，具体改进细节未知；2) 在相对较小的病理图像数据集上进行预训练；3) 应用后训练程序，在高分辨率图像上对模型进行微调，以进一步提升模型性能。整体流程旨在提高模型在有限数据下的学习能力。

关键创新：论文的关键创新在于，它证明了通过对现有自监督学习框架进行优化，并结合领域特定的训练策略，可以在远少于现有SOTA模型的数据量下，训练出具有竞争力的病理学基础模型。这表明，数据量并非决定模型性能的唯一因素，更高效的算法和训练策略同样重要。

关键设计：论文的关键设计包括：1) 对DINOv2框架的具体修改细节（未知）；2) 使用高分辨率图像进行微调的后训练程序，这有助于模型学习到更精细的病理特征；3) 针对病理图像特点进行的图像处理技术（未知）。具体的参数设置、损失函数和网络结构等细节在论文中没有详细描述。

🖼️ 关键图片

📊 实验亮点

论文提出的方法在远少于SOTA模型的数据量下，训练出的模型在下游任务上表现出相当甚至更优的性能。例如，仅在TCGA数据集（12k WSIs）上训练的模型，就优于大多数现有FM，并且平均而言，与第二好的FM Virchow2 相匹配。这表明该方法具有很高的数据利用效率和实际应用价值。

🎯 应用场景

该研究成果可应用于多种计算病理学任务，例如肿瘤诊断、预后预测和药物响应预测等。通过降低训练数据需求，该方法有望促进病理学基础模型在资源有限的医疗机构和研究团队中的应用，加速病理学人工智能的发展，并最终改善患者的诊断和治疗。

📄 摘要（原文）

The field of computational pathology has recently seen rapid advances driven by the development of modern vision foundation models (FMs), typically trained on vast collections of pathology images. Recent studies demonstrate that increasing the training data set and model size and integrating domain-specific image processing techniques can significantly enhance the model's performance on downstream tasks. Building on these insights, our work incorporates several recent modifications to the standard DINOv2 framework from the literature to optimize the training of pathology FMs. We also apply a post-training procedure for fine-tuning models on higher-resolution images to further enrich the information encoded in the embeddings. We present three novel pathology FMs trained on up to two orders of magnitude fewer WSIs than those used to train other state-of-the-art FMs while demonstrating a comparable or superior performance on downstream tasks. Even the model trained on TCGA alone (12k WSIs) outperforms most existing FMs and, on average, matches Virchow2, the second-best FM published to date. This suggests that there still remains a significant potential for further improving the models and algorithms used to train pathology FMs to take full advantage of the vast data collections.

Training state-of-the-art pathology foundation models with orders of magnitude less data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理