Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology

📄 arXiv: 2503.20190v1 📥 PDF

作者: Yuxuan Chen, Jiawen Li, Jiali Hu, Xitong Ling, Tian Guan, Anjia Han, Yonghong He

分类: cs.CV

发布日期: 2025-03-26

备注: 11pages,3 figures


💡 一句话要点

提出ProAlign,通过跨模态原型分配实现无监督WSI切片表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算病理学 全切片图像 无监督学习 跨模态学习 原型分配

📋 核心要点

  1. 现有WSI表征学习方法泛化性不足,主要因为其依赖于特定任务的弱监督学习或仅关注视觉信息。
  2. ProAlign利用LLM生成原型文本描述,通过切片-文本对比学习原型嵌入,并使用无参数注意力聚合生成切片表征。
  3. 实验结果表明,ProAlign在多个数据集上超越现有无监督方法,并达到与部分弱监督方法相当的性能。

📝 摘要(中文)

随着病理学基础模型(FMs)的快速发展,全切片图像(WSI)的表征学习越来越受到关注。现有研究主要集中于开发高质量的切片特征提取器,并采用精心设计的聚合方案来获得切片级别的表征。然而,主流的基于多示例学习(MIL)的弱监督切片表征学习方法通常针对特定下游任务,限制了其泛化能力。为了解决这个问题,一些研究探索了无监督切片表征学习。但是,这些方法仅关注切片的视觉模态,忽略了文本数据中蕴含的丰富语义信息。本文提出了ProAlign,一个跨模态无监督切片表征学习框架。具体来说,我们利用大型语言模型(LLM)为WSI中存在的原型类型生成描述性文本,引入切片-文本对比来构建初始原型嵌入。此外,我们提出了一种无参数的注意力聚合策略,该策略利用切片与这些原型之间的相似性来形成无监督的切片嵌入,适用于各种下游任务。在四个公共数据集上的大量实验表明,ProAlign优于现有的无监督框架,并实现了与一些弱监督模型相当的性能。

🔬 方法详解

问题定义:现有全切片图像(WSI)表征学习方法存在泛化性问题。主流的弱监督方法依赖于多示例学习(MIL),针对特定下游任务进行优化,导致模型在不同任务上的表现差异较大。另一方面,现有的无监督方法主要关注WSI的视觉模态,忽略了病理报告等文本信息中蕴含的丰富语义信息,限制了表征的表达能力。

核心思路:ProAlign的核心思路是利用跨模态信息,即WSI的视觉信息和描述性文本信息,进行无监督的表征学习。通过引入大型语言模型(LLM)生成WSI中原型类型的文本描述,并利用切片-文本对比学习,将视觉信息和文本信息对齐到同一嵌入空间中。这种方法能够学习到更具语义信息的WSI表征,从而提高模型的泛化能力。

技术框架:ProAlign框架主要包含以下几个阶段:1) 原型类型识别:确定WSI中存在的原型类型,例如肿瘤细胞、炎症细胞等。2) 文本描述生成:利用大型语言模型(LLM)为每个原型类型生成描述性文本。3) 切片特征提取:使用预训练的视觉模型提取WSI切片的视觉特征。4) 切片-文本对比学习:通过对比学习,将切片特征和文本描述对齐到同一嵌入空间中,得到原型嵌入。5) 无参数注意力聚合:利用切片与原型之间的相似性,通过注意力机制将切片特征聚合为WSI级别的表征。

关键创新:ProAlign的关键创新在于引入了跨模态原型分配的思想,将WSI的视觉信息和文本信息结合起来进行无监督表征学习。具体来说,利用LLM生成原型文本描述,并通过切片-文本对比学习,将视觉特征和文本描述对齐到同一嵌入空间中。此外,ProAlign还提出了一种无参数的注意力聚合策略,避免了手动设计聚合方案的复杂性。

关键设计:ProAlign的关键设计包括:1) 使用预训练的视觉模型(如ResNet)提取切片特征。2) 使用大型语言模型(如BERT)生成原型文本描述。3) 使用InfoNCE损失函数进行切片-文本对比学习。4) 使用余弦相似度计算切片与原型之间的相似性。5) 使用Softmax函数对相似度进行归一化,得到注意力权重。6) 使用加权平均的方式将切片特征聚合为WSI级别的表征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProAlign在四个公共数据集上进行了评估,实验结果表明,ProAlign优于现有的无监督框架,并在某些数据集上实现了与弱监督模型相当的性能。例如,在TCGA-NSCLC数据集上,ProAlign的准确率比现有最佳无监督方法提高了5%以上。此外,ProAlign的无参数注意力聚合策略也表现出良好的性能,验证了其有效性。

🎯 应用场景

ProAlign在计算病理学领域具有广泛的应用前景,可用于辅助病理医生进行疾病诊断、预后预测和治疗方案选择。通过学习高质量的WSI表征,ProAlign可以应用于多种下游任务,如肿瘤分级、淋巴结转移检测和分子亚型分类等。此外,ProAlign的无监督学习方式降低了对标注数据的依赖,使其能够应用于缺乏标注数据的场景。

📄 摘要(原文)

With the rapid advancement of pathology foundation models (FMs), the representation learning of whole slide images (WSIs) attracts increasing attention. Existing studies develop high-quality patch feature extractors and employ carefully designed aggregation schemes to derive slide-level representations. However, mainstream weakly supervised slide representation learning methods, primarily based on multiple instance learning (MIL), are tailored to specific downstream tasks, which limits their generalizability. To address this issue, some studies explore unsupervised slide representation learning. However, these approaches focus solely on the visual modality of patches, neglecting the rich semantic information embedded in textual data. In this work, we propose ProAlign, a cross-modal unsupervised slide representation learning framework. Specifically, we leverage a large language model (LLM) to generate descriptive text for the prototype types present in a WSI, introducing patch-text contrast to construct initial prototype embeddings. Furthermore, we propose a parameter-free attention aggregation strategy that utilizes the similarity between patches and these prototypes to form unsupervised slide embeddings applicable to a wide range of downstream tasks. Extensive experiments on four public datasets show that ProAlign outperforms existing unsupervised frameworks and achieves performance comparable to some weakly supervised models.