Unsupervised Foundation Model-Agnostic Slide-Level Representation Learning

📄 arXiv: 2411.13623v3 📥 PDF

作者: Tim Lenz, Peter Neidlinger, Marta Ligero, Georg Wölflein, Marko van Treeck, Jakob Nikolas Kather

分类: cs.CV

发布日期: 2024-11-20 (更新: 2025-03-22)

备注: Got accepted at CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出COBRA方法以解决病理全切片图像表示学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理图像分析 自监督学习 切片表示学习 多实例学习 基础模型 对比学习 医学影像 肿瘤检测

📋 核心要点

  1. 现有的病理全切片图像表示学习方法多依赖于弱监督,导致生成的表示难以泛化到不同的临床任务。
  2. 本文提出的COBRA方法通过整合多个基础模型的瓷砖嵌入,采用单模态自监督学习策略,旨在生成有效的切片表示。
  3. 实验结果显示,COBRA在四个CPTAC队列上平均提升了至少4.4% AUC,展现出优于现有切片编码器的性能。

📝 摘要(中文)

病理全切片图像(WSIs)的表示学习主要依赖于弱监督的多实例学习(MIL),导致生成的切片表示高度针对特定临床任务。自监督学习(SSL)已成功应用于训练组织病理学基础模型(FMs)以生成补丁嵌入,但生成患者或切片级别的嵌入仍然具有挑战性。现有方法通过对齐切片的不同增强或利用多模态数据来扩展SSL的原则。本文提出了一种新的单模态SSL方法COBRA,通过整合来自多个FMs的瓷砖嵌入,在特征空间中生成有用的切片表示。COBRA在四个公共临床蛋白质组肿瘤分析联盟(CPTAC)队列上,平均超过现有切片编码器的性能至少4.4% AUC,尽管仅在3048个来自癌症基因组图谱(TCGA)的WSIs上进行预训练。此外,COBRA在推理时与以前未见的特征提取器兼容。

🔬 方法详解

问题定义:本文旨在解决病理全切片图像的表示学习问题,现有方法由于依赖于特定任务的弱监督,导致生成的切片表示缺乏通用性和灵活性。

核心思路:COBRA方法通过整合来自多个基础模型的瓷砖嵌入,采用单模态自监督学习策略,旨在生成具有更强泛化能力的切片表示。这样的设计使得模型能够在不同的临床任务中保持较高的性能。

技术框架:COBRA的整体架构基于Mamba-2,包含多个基础模型的集成和对比预训练策略。该方法通过对不同切片增强的对比学习,提升了切片表示的质量。

关键创新:COBRA的主要创新在于其单模态自监督学习方法,能够有效整合多个基础模型的特征,生成高质量的切片表示。这与现有方法的多模态依赖形成了鲜明对比。

关键设计:在COBRA中,采用了特定的损失函数来优化切片表示的对比学习过程,并通过精心设计的网络结构来处理来自不同基础模型的瓷砖嵌入,确保了模型的有效性和稳定性。

📊 实验亮点

COBRA方法在四个公共CPTAC队列上表现出色,平均提升了至少4.4% AUC,超越了现有的切片编码器。这一结果表明,COBRA在处理病理全切片图像表示学习方面具有显著的优势,尽管仅在3048个TCGA的WSIs上进行预训练。

🎯 应用场景

该研究在病理学图像分析领域具有广泛的应用潜力,尤其是在肿瘤检测和分类等临床任务中。通过生成更具泛化能力的切片表示,COBRA方法能够帮助医生更准确地进行诊断和治疗决策,提升临床效果。未来,该方法还可能扩展到其他医学影像领域,推动相关研究的发展。

📄 摘要(原文)

Representation learning of pathology whole-slide images (WSIs) has primarily relied on weak supervision with Multiple Instance Learning (MIL). This approach leads to slide representations highly tailored to a specific clinical task. Self-supervised learning (SSL) has been successfully applied to train histopathology foundation models (FMs) for patch embedding generation. However, generating patient or slide level embeddings remains challenging. Existing approaches for slide representation learning extend the principles of SSL from patch level learning to entire slides by aligning different augmentations of the slide or by utilizing multimodal data. By integrating tile embeddings from multiple FMs, we propose a new single modality SSL method in feature space that generates useful slide representations. Our contrastive pretraining strategy, called COBRA, employs multiple FMs and an architecture based on Mamba-2. COBRA exceeds performance of state-of-the-art slide encoders on four different public Clinical Protemic Tumor Analysis Consortium (CPTAC) cohorts on average by at least +4.4% AUC, despite only being pretrained on 3048 WSIs from The Cancer Genome Atlas (TCGA). Additionally, COBRA is readily compatible at inference time with previously unseen feature extractors. Code available at https://github.com/KatherLab/COBRA.