Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping
作者: Dexuan He, Xiao Zhou, Wenbin Guan, Liyuan Zhang, Xiaoman Zhang, Sinuo Xu, Ge Wang, Lifeng Wang, Xiaojun Yuan, Xin Sun, Yanfeng Wang, Kun Sun, Ya Zhang, Weidi Xie
分类: cs.CV
发布日期: 2025-08-21
💡 一句话要点
PathPT:通过少样本提示调优增强病理学基础模型,用于罕见癌症亚型分类
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学图像分析 视觉-语言模型 罕见癌症亚型分类 少样本学习 提示调优
📋 核心要点
- 现有病理学图像分析方法,特别是多示例学习,在罕见癌症亚型分类中,缺乏跨模态知识利用和可解释性。
- PathPT框架通过空间感知视觉聚合和任务特定提示调优,充分利用视觉-语言病理学基础模型的潜力,实现细粒度指导。
- 实验表明,PathPT在罕见癌症亚型分类准确性和癌变区域定位能力方面均优于现有方法,提升了AI辅助诊断水平。
📝 摘要(中文)
罕见癌症占所有恶性肿瘤的20-25%,但由于专家资源有限,面临着巨大的诊断挑战,尤其是在儿科肿瘤学中,罕见癌症病例超过70%。病理学视觉-语言(VL)基础模型在常见癌症亚型分类方面显示出良好的零样本能力,但其在罕见癌症中的临床表现仍然有限。现有的多示例学习(MIL)方法仅依赖于视觉特征,忽略了跨模态知识,并损害了罕见癌症诊断所需的关键可解释性。为了解决这一局限性,我们提出了PathPT,一种新颖的框架,通过空间感知视觉聚合和任务特定的提示调优,充分利用视觉-语言病理学基础模型的潜力。与传统的MIL不同,PathPT通过利用VL模型的零样本能力,将WSI级别的监督转化为细粒度的tile级别指导,从而保留了癌变区域的定位,并通过与组织病理学语义对齐的提示实现跨模态推理。我们在八个罕见癌症数据集(四个成人和四个儿科)上对PathPT进行了基准测试,这些数据集涵盖56个亚型和2,910个WSI,以及三个常见癌症数据集,在三个少样本设置下评估了四个最先进的VL模型和四个MIL框架。结果表明,PathPT始终提供卓越的性能,在亚型分类准确性和癌变区域定位能力方面取得了显著提升。这项工作推进了人工智能辅助罕见癌症诊断,为在专业知识有限的情况下提高亚型分类准确性提供了一种可扩展的解决方案。
🔬 方法详解
问题定义:现有方法在罕见癌症亚型分类中,主要依赖视觉特征,忽略了文本信息,导致跨模态知识利用不足,影响诊断准确性和可解释性。尤其是在儿科肿瘤学等专业知识有限的领域,这一问题更加突出。
核心思路:PathPT的核心在于利用视觉-语言基础模型的零样本能力,将WSI级别的监督转化为细粒度的tile级别指导,从而保留癌变区域的定位信息,并通过与组织病理学语义对齐的提示实现跨模态推理。这样可以有效利用视觉和语言信息,提高分类准确性和可解释性。
技术框架:PathPT框架主要包含以下几个模块:1) 空间感知视觉聚合:对WSI图像进行切片,提取tile级别的视觉特征。2) 任务特定提示调优:利用视觉-语言模型,通过提示学习的方式,将WSI级别的监督信息转化为tile级别的指导信息。3) 跨模态推理:结合视觉特征和语言信息,进行癌症亚型分类。整体流程是先进行视觉特征提取,然后通过提示调优进行跨模态信息融合,最后进行分类预测。
关键创新:PathPT的关键创新在于:1) 提出了利用视觉-语言模型进行细粒度指导的方法,克服了传统MIL方法的局限性。2) 通过提示调优,实现了跨模态知识的有效融合,提高了分类准确性和可解释性。3) 在罕见癌症亚型分类任务上进行了验证,证明了该方法的有效性。
关键设计:PathPT的关键设计包括:1) 提示模板的设计,需要与组织病理学语义对齐,才能有效引导模型学习。2) 损失函数的设计,需要考虑WSI级别的监督信息和tile级别的预测结果,以实现有效的训练。3) 模型参数的设置,需要根据具体的数据集和任务进行调整,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
PathPT在八个罕见癌症数据集和三个常见癌症数据集上进行了广泛的实验验证。结果表明,PathPT在亚型分类准确性和癌变区域定位能力方面均优于现有的MIL方法。例如,在某些罕见癌症数据集上,PathPT的分类准确率比最佳基线方法提高了10%以上,证明了其在罕见癌症诊断中的有效性。
🎯 应用场景
PathPT可应用于罕见癌症的辅助诊断,尤其是在病理专家资源有限的地区或医院。该方法能够提高罕见癌症亚型分类的准确性和可解释性,辅助医生进行更准确的诊断和治疗方案制定。未来,PathPT有望扩展到其他医学图像分析任务,例如疾病风险预测和个性化治疗。
📄 摘要(原文)
Rare cancers comprise 20-25% of all malignancies but face major diagnostic challenges due to limited expert availability-especially in pediatric oncology, where they represent over 70% of cases. While pathology vision-language (VL) foundation models show promising zero-shot capabilities for common cancer subtyping, their clinical performance for rare cancers remains limited. Existing multi-instance learning (MIL) methods rely only on visual features, overlooking cross-modal knowledge and compromising interpretability critical for rare cancer diagnosis. To address this limitation, we propose PathPT, a novel framework that fully exploits the potential of vision-language pathology foundation models through spatially-aware visual aggregation and task-specific prompt tuning. Unlike conventional MIL, PathPT converts WSI-level supervision into fine-grained tile-level guidance by leveraging the zero-shot capabilities of VL models, thereby preserving localization on cancerous regions and enabling cross-modal reasoning through prompts aligned with histopathological semantics. We benchmark PathPT on eight rare cancer datasets(four adult and four pediatric) spanning 56 subtypes and 2,910 WSIs, as well as three common cancer datasets, evaluating four state-of-the-art VL models and four MIL frameworks under three few-shot settings. Results show that PathPT consistently delivers superior performance, achieving substantial gains in subtyping accuracy and cancerous region grounding ability. This work advances AI-assisted diagnosis for rare cancers, offering a scalable solution for improving subtyping accuracy in settings with limited access to specialized expertise.