MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning

📄 arXiv: 2408.11505v3 📥 PDF

作者: Minghao Han, Linhao Qu, Dingkang Yang, Xukun Zhang, Xiaoying Wang, Lihua Zhang

分类: cs.CV

发布日期: 2024-08-21 (更新: 2025-09-09)

备注: This work has been submitted to the IEEE TMI for possible publication

🔗 代码/项目: GITHUB


💡 一句话要点

提出MSCPT,利用多尺度上下文提示调整解决病理全切片图像的少样本分类问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全切片图像分类 少样本学习 多示例学习 提示调整 视觉-语言模型 上下文信息 病理诊断

📋 核心要点

  1. 现有方法未能充分利用视觉-语言模型中文本模态的先验知识,忽略了WSI中的多尺度和上下文信息,且缺乏对实例聚合方法的探索。
  2. MSCPT利用冻结的大型语言模型生成多尺度病理视觉语言先验知识,指导分层提示调整,并设计图提示调整模块学习上下文信息。
  3. 在五个数据集和三个下游任务上的实验表明,MSCPT相较于现有方法具有显著的性能提升,并提供了可视化和可解释性分析。

📝 摘要(中文)

多示例学习(MIL)已成为全切片图像(WSI)弱监督分类的标准范式。然而,这种范式依赖于大量带标签的WSI进行训练。训练数据的缺乏和罕见疾病的存在对这些方法提出了重大挑战。提示调整结合预训练视觉-语言模型(VLM)是解决少样本弱监督WSI分类(FSWC)任务的有效方案。然而,将为自然图像设计的提示调整方法应用于WSI存在三个显著挑战:1)这些方法未能充分利用VLM文本模态的先验知识;2)它们忽略了WSI中重要的多尺度和上下文信息,导致次优结果;3)它们缺乏对实例聚合方法的探索。为了解决这些问题,我们提出了一种用于FSWC任务的多尺度和上下文聚焦提示调整(MSCPT)方法。具体来说,MSCPT采用冻结的大型语言模型在多个尺度上生成病理视觉语言先验知识,指导分层提示调整。此外,我们设计了一个图提示调整模块来学习WSI中重要的上下文信息,最后,引入了一个非参数交叉引导实例聚合模块来导出WSI级别的特征。在五个数据集和三个下游任务上使用三个VLM进行了广泛的实验、可视化和可解释性分析,证明了MSCPT的强大性能。所有代码已在https://github.com/Hanminghao/MSCPT上公开。

🔬 方法详解

问题定义:论文旨在解决全切片图像(WSI)的少样本弱监督分类问题。现有方法在处理WSI时,无法有效利用预训练视觉-语言模型(VLM)的文本先验知识,忽略了WSI的多尺度和上下文信息,并且缺乏对实例聚合方法的有效探索,导致分类性能受限。

核心思路:论文的核心思路是利用多尺度和上下文信息来增强提示调整的效果。通过引入病理视觉语言先验知识,并结合图提示调整模块来学习WSI中的上下文关系,从而提升少样本情况下的分类准确率。同时,采用非参数交叉引导实例聚合模块来提取WSI级别的特征。

技术框架:MSCPT方法主要包含三个模块:1) 多尺度病理视觉语言先验知识生成模块,利用冻结的大型语言模型在多个尺度上生成先验知识;2) 图提示调整模块,用于学习WSI中的上下文信息;3) 非参数交叉引导实例聚合模块,用于导出WSI级别的特征。整体流程是先通过多尺度先验知识引导分层提示调整,然后利用图提示调整模块学习上下文信息,最后通过实例聚合得到最终的WSI分类结果。

关键创新:该方法的主要创新点在于:1) 提出了多尺度病理视觉语言先验知识生成方法,有效利用了VLM的文本模态信息;2) 设计了图提示调整模块,能够学习WSI中重要的上下文关系;3) 引入了非参数交叉引导实例聚合模块,提升了WSI级别特征的表达能力。这些创新使得MSCPT在少样本情况下能够更准确地进行WSI分类。

关键设计:在多尺度先验知识生成模块中,使用了冻结的大型语言模型,避免了微调带来的过拟合风险。图提示调整模块采用了图神经网络来建模WSI中实例之间的关系。非参数交叉引导实例聚合模块则通过计算实例之间的相似度来进行特征聚合,避免了参数学习带来的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSCPT在五个数据集和三个下游任务上进行了广泛的实验,并与多个基线方法进行了比较。实验结果表明,MSCPT在少样本情况下能够显著提升WSI分类的准确率,尤其是在数据量较少的情况下,性能提升更为明显。同时,可视化和可解释性分析也验证了MSCPT的有效性和合理性。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统,尤其是在罕见疾病或缺乏标注数据的场景下,能够帮助病理学家更准确地进行疾病诊断和分类。此外,该方法还可以扩展到其他医学图像分析领域,例如CT、MRI等,具有广阔的应用前景和重要的临床价值。

📄 摘要(原文)

Multiple instance learning (MIL) has become a standard paradigm for the weakly supervised classification of whole slide images (WSIs). However, this paradigm relies on using a large number of labeled WSIs for training. The lack of training data and the presence of rare diseases pose significant challenges for these methods. Prompt tuning combined with pre-trained Vision-Language models (VLMs) is an effective solution to the Few-shot Weakly Supervised WSI Classification (FSWC) task. Nevertheless, applying prompt tuning methods designed for natural images to WSIs presents three significant challenges: 1) These methods fail to fully leverage the prior knowledge from the VLM's text modality; 2) They overlook the essential multi-scale and contextual information in WSIs, leading to suboptimal results; and 3) They lack exploration of instance aggregation methods. To address these problems, we propose a Multi-Scale and Context-focused Prompt Tuning (MSCPT) method for FSWC task. Specifically, MSCPT employs the frozen large language model to generate pathological visual language prior knowledge at multiple scales, guiding hierarchical prompt tuning. Additionally, we design a graph prompt tuning module to learn essential contextual information within WSI, and finally, a non-parametric cross-guided instance aggregation module has been introduced to derive the WSI-level features. Extensive experiments, visualizations, and interpretability analyses were conducted on five datasets and three downstream tasks using three VLMs, demonstrating the strong performance of our MSCPT. All codes have been made publicly accessible at https://github.com/Hanminghao/MSCPT.