Towards A Generalizable Pathology Foundation Model via Unified Knowledge Distillation
作者: Jiabo Ma, Zhengrui Guo, Fengtao Zhou, Yihui Wang, Yingxue Xu, Jinbang Li, Fang Yan, Yu Cai, Zhengjie Zhu, Cheng Jin, Yi Lin, Xinrui Jiang, Chenglong Zhao, Danyi Li, Anjia Han, Zhenhui Li, Ronald Cheong Kin Chan, Jiguang Wang, Peng Fei, Kwang-Ting Cheng, Shaoting Zhang, Li Liang, Hao Chen
分类: eess.IV, cs.CV, cs.LG
发布日期: 2024-07-26 (更新: 2025-04-14)
备注: update
💡 一句话要点
提出基于统一知识蒸馏的通用病理学基础模型,提升临床任务泛化性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学 基础模型 知识蒸馏 泛化能力 计算病理学
📋 核心要点
- 现有病理学基础模型在临床任务泛化性方面存在不足,缺乏全面评估。
- 提出统一的知识蒸馏框架,融合专家知识和自知识,提升模型表征能力。
- GPFM模型在包含72,000张切片的1.9亿张图像数据集上训练,并在72个任务上取得了显著的性能提升。
📝 摘要(中文)
计算病理学(CPath)领域正被大规模数据集上预训练的基础模型所革新。基础模型的泛化能力对于各种下游临床任务的成功至关重要。然而,目前的基础模型仅在有限的任务类型和数量上进行了评估,导致其泛化能力和整体性能尚不明确。为了解决这个问题,我们建立了一个最全面的基准,以评估现成的基础模型在六种不同的临床任务类型中的性能,包括72个具体任务,涵盖切片级别分类、生存预测、ROI组织分类、ROI检索、视觉问答和报告生成。我们的研究结果表明,现有的基础模型擅长某些任务类型,但难以有效地处理全部临床任务。为了提高病理学基础模型的泛化能力,我们提出了一个统一的知识蒸馏框架,包括专家知识蒸馏和自知识蒸馏,前者允许模型学习多个专家模型的知识,而后者利用自蒸馏通过局部-全局对齐来实现图像表征学习。基于此框架,我们整理了一个包含96,000张全切片图像(WSI)的数据集,并开发了一个通用病理学基础模型(GPFM)。该模型在包含约72,000张公开切片中提取的1.9亿张图像的大型数据集上进行了训练,涵盖了34种主要的组织类型。在已建立的基准上进行评估,GPFM取得了令人印象深刻的平均排名1.6,其中42个任务排名第一,而排名第二的模型UNI的平均排名为3.7,只有6个任务排名第一。
🔬 方法详解
问题定义:现有计算病理学基础模型在不同临床任务上的泛化能力不足,难以同时胜任切片分类、生存预测、ROI检索等多种任务。现有模型通常只在少量任务上进行评估,无法全面反映其性能,且缺乏有效的泛化能力提升方法。
核心思路:论文的核心思路是通过统一的知识蒸馏框架,将多个专家模型的知识迁移到单个模型中,并利用自知识蒸馏增强模型的图像表征能力。通过专家知识蒸馏,模型可以学习到不同任务的特定知识,而自知识蒸馏则可以提高模型对图像局部和全局信息的理解,从而提升泛化能力。
技术框架:GPFM的训练框架主要包含两个阶段:专家知识蒸馏和自知识蒸馏。在专家知识蒸馏阶段,首先训练多个在不同任务上表现良好的专家模型。然后,利用这些专家模型的预测结果作为软标签,指导GPFM的学习。在自知识蒸馏阶段,GPFM通过最小化自身不同尺度的特征表示之间的差异来学习图像的局部和全局信息。
关键创新:该论文的关键创新在于提出了一个统一的知识蒸馏框架,能够同时利用专家知识和自知识来提升病理学基础模型的泛化能力。与传统的知识蒸馏方法不同,该框架能够灵活地整合多个专家模型的知识,并利用自知识蒸馏来增强模型的图像表征能力。
关键设计:在专家知识蒸馏阶段,使用了交叉熵损失函数来衡量GPFM的预测结果与专家模型软标签之间的差异。在自知识蒸馏阶段,使用了KL散度来衡量GPFM不同尺度特征表示之间的差异。此外,论文还精心设计了数据集的构建方式,包括选择合适的切片和图像块,以保证训练数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
GPFM在包含72个任务的综合基准测试中取得了显著的性能提升,平均排名达到1.6,其中42个任务排名第一。相比之下,第二好的模型UNI的平均排名为3.7,只有6个任务排名第一。这些结果表明,GPFM在各种病理学任务上都具有强大的泛化能力,能够有效地解决现有基础模型泛化能力不足的问题。
🎯 应用场景
该研究成果可广泛应用于计算病理学领域,例如辅助医生进行疾病诊断、预测患者生存期、进行组织分类和检索等。通过提升病理学基础模型的泛化能力,可以降低模型在不同临床任务上的部署成本,并提高诊断的准确性和效率。未来,该模型有望成为病理学研究和临床实践的重要工具。
📄 摘要(原文)
Foundation models pretrained on large-scale datasets are revolutionizing the field of computational pathology (CPath). The generalization ability of foundation models is crucial for the success in various downstream clinical tasks. However, current foundation models have only been evaluated on a limited type and number of tasks, leaving their generalization ability and overall performance unclear. To address this gap, we established a most comprehensive benchmark to evaluate the performance of off-the-shelf foundation models across six distinct clinical task types, encompassing a total of 72 specific tasks, including slide-level classification, survival prediction, ROI-tissue classification, ROI retrieval, visual question answering, and report generation. Our findings reveal that existing foundation models excel at certain task types but struggle to effectively handle the full breadth of clinical tasks. To improve the generalization of pathology foundation models, we propose a unified knowledge distillation framework consisting of both expert and self-knowledge distillation, where the former allows the model to learn from the knowledge of multiple expert models, while the latter leverages self-distillation to enable image representation learning via local-global alignment. Based on this framework, we curated a dataset of 96,000 whole slide images (WSIs) and developed a Generalizable Pathology Foundation Model (GPFM). This advanced model was trained on a substantial dataset comprising 190 million images extracted from approximately 72,000 publicly available slides, encompassing 34 major tissue types. Evaluated on the established benchmark, GPFM achieves an impressive average rank of 1.6, with 42 tasks ranked 1st, while the second-best model, UNI, attains an average rank of 3.7, with only 6 tasks ranked 1st.