Comparing ImageNet Pre-training with Digital Pathology Foundation Models for Whole Slide Image-Based Survival Analysis
作者: Kleanthis Marios Papadopoulos, Tania Stathaki
分类: eess.IV, cs.CV
发布日期: 2024-05-20 (更新: 2025-08-04)
备注: Accepted (Oral) at the 6th International Conference on Computer Vision and Information Technology (CVIT 2025)
💡 一句话要点
利用病理学预训练模型提升WSI生存分析的MIL网络性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全切片图像 生存分析 多示例学习 预训练模型 组织病理学 深度学习 迁移学习
📋 核心要点
- 现有的基于WSI的生存分析方法依赖于在自然图像上预训练的ResNet50,可能无法充分捕捉病理图像的特征。
- 本文探索使用组织病理学领域预训练的基础模型(如UNI和Hibou)来提升MIL网络的性能,更好地适应病理图像的特点。
- 实验结果表明,使用病理学预训练模型可以提高基线精度,但对于更复杂的MIL架构,提升效果可能会减弱。
📝 摘要(中文)
全切片图像(WSI)蕴含的大量信息使其成为生存分析的重要工具。本文研究表明,通过利用最近发布的组织病理学基础模型,如UNI和Hibou,可以增强用于此任务的现有基于多示例学习(MIL)网络的预测能力,这些网络通常使用在自然图像上预训练的ResNet50作为骨干网络。此外,部署数字病理学基础模型的集成可以产生更高的基线精度,但随着更复杂的MIL架构的出现,这种优势似乎会减弱。代码将在接收后公开。
🔬 方法详解
问题定义:论文旨在提高基于全切片图像(WSI)的生存分析的准确性。现有方法通常使用在自然图像上预训练的ResNet50作为多示例学习(MIL)框架的骨干网络,这可能无法充分捕捉WSI中复杂的组织病理学特征,限制了生存分析的性能。
核心思路:论文的核心思路是利用最近发布的组织病理学领域预训练的基础模型(如UNI和Hibou)来替代或增强ResNet50骨干网络。这些基础模型已经在大量的病理图像上进行了预训练,能够更好地提取WSI中的相关特征,从而提升MIL网络的预测能力。论文还探索了使用多个病理学基础模型集成的方法,以进一步提高性能。
技术框架:整体框架是基于MIL的生存分析流程。首先,将WSI分割成小的图像块(tiles)。然后,使用预训练的骨干网络(ResNet50或病理学基础模型)提取每个图像块的特征。接下来,使用MIL聚合层将这些特征聚合成WSI级别的表示。最后,使用生存分析模型(如Cox比例风险模型)基于WSI表示进行生存预测。论文主要关注替换或增强骨干网络部分,比较不同预训练模型的效果。
关键创新:关键创新在于将组织病理学领域预训练的基础模型引入到WSI生存分析的MIL框架中。与传统的在自然图像上预训练的模型相比,这些基础模型能够更好地捕捉病理图像的特征,从而提高生存预测的准确性。此外,论文还探索了使用多个病理学基础模型集成的方法,以进一步提高性能。
关键设计:论文的关键设计包括选择合适的组织病理学基础模型(UNI和Hibou),以及将这些模型集成到现有的MIL框架中。具体的技术细节可能包括:如何将预训练模型的输出特征与MIL聚合层连接,如何调整模型的学习率和优化器,以及如何设计集成策略(例如,简单平均或加权平均)。论文中可能还涉及一些数据增强和正则化技术,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
论文的主要实验结果表明,使用组织病理学预训练的基础模型可以提高WSI生存分析的基线精度。虽然具体的性能数据和提升幅度需要在论文发表后才能得知,但摘要中提到,部署数字病理学基础模型的集成可以产生更高的基线精度。然而,对于更复杂的MIL架构,这种优势可能会减弱,这表明需要进一步研究如何将病理学预训练模型与更复杂的MIL架构相结合。
🎯 应用场景
该研究成果可应用于癌症诊断、预后预测和个性化治疗方案制定。通过提高基于WSI的生存分析的准确性,医生可以更准确地评估患者的病情,预测生存时间,并制定更有效的治疗策略。这有助于改善患者的生存率和生活质量,并为药物研发提供更可靠的生物标志物。
📄 摘要(原文)
The abundance of information present in Whole Slide Images (WSIs) renders them an essential tool for survival analysis. Several Multiple Instance Learning frameworks proposed for this task utilize a ResNet50 backbone pre-trained on natural images. By leveraging recenetly released histopathological foundation models such as UNI and Hibou, the predictive prowess of existing MIL networks can be enhanced. Furthermore, deploying an ensemble of digital pathology foundation models yields higher baseline accuracy, although the benefits appear to diminish with more complex MIL architectures. Our code will be made publicly available upon acceptance.