Aggregation Schemes for Single-Vector WSI Representation Learning in Digital Pathology

📄 arXiv: 2501.17822v2 📥 PDF

作者: Sobhan Hemati, Ghazal Alabtah, Saghir Alfasly, H. R. Tizhoosh

分类: eess.IV, cs.AI, cs.CV, cs.IR, q-bio.QM

发布日期: 2025-01-29 (更新: 2025-05-21)


💡 一句话要点

评估多种聚合方法用于数字病理中单向量WSI表征学习,提升WSI检索性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 整张切片图像 WSI表征学习 集合表征学习 数字病理学 图像检索

📋 核心要点

  1. 现有方法难以直接处理高分辨率WSI,通常将其分割成图像块,导致WSI表征学习问题转化为集合表征学习。
  2. 论文评估多种集合表征学习技术,旨在从WSI的图像块嵌入集合中提取单个高质量的WSI嵌入向量。
  3. 实验在TCGA数据集的四个原发部位上,对比了多种聚合方法的WSI检索性能,并与非聚合方法进行了基准测试。

📝 摘要(中文)

在计算病理学中,将整张切片图像(WSI)高效整合的关键一步是为每个WSI分配一个高质量的特征向量,即一个嵌入。虽然存在许多预训练的深度神经网络和新兴的基础模型,提取子图像(即切片或图像块)的嵌入是直接的。然而,由于WSI的高分辨率和千兆像素特性,将它们作为单个图像输入到现有GPU中是不可行的。因此,WSI通常被分割成许多图像块。将每个图像块输入到预训练模型后,每个WSI就可以用一组图像块表示,因此,表示为一组嵌入。因此,在这种设置中,WSI表征学习简化为集合表征学习,其中对于每个WSI,我们可以访问一组图像块嵌入。为了从每个WSI的一组图像块嵌入中获得单个嵌入,文献中已经提出了多种基于集合的学习方案。在本文中,我们评估了多种最近开发的聚合技术(主要是集合表征学习技术)的WSI搜索性能,包括简单的平均或最大池化操作、Deep Sets、Memory networks、Focal attention、高斯混合模型(GMM)Fisher向量以及深度稀疏和二值Fisher向量,这些方法应用于来自TCGA的膀胱、乳腺、肾脏和结肠四个不同的原发部位。此外,我们将这些方法的搜索性能与图像块嵌入的最小距离中位数进行基准测试,这是一种用于WSI检索的非聚合方法。

🔬 方法详解

问题定义:论文旨在解决如何从WSI的图像块嵌入集合中学习到单个、高质量的WSI表征向量的问题。现有方法由于WSI的超高分辨率,无法直接输入GPU进行处理,通常将其分割成多个图像块,导致WSI的表征学习变成了集合表征学习。现有的集合表征学习方法在WSI检索任务上的性能表现和适用性尚不明确。

核心思路:论文的核心思路是系统性地评估多种现有的集合表征学习技术,并将它们应用于WSI的图像块嵌入集合,从而得到单个WSI的表征向量。通过比较不同聚合方法在WSI检索任务上的性能,找到适用于WSI表征学习的最佳策略。

技术框架:论文的技术框架主要包括以下几个步骤:1) 将WSI分割成多个图像块;2) 使用预训练的深度神经网络提取每个图像块的嵌入向量;3) 使用不同的集合表征学习技术(如平均池化、最大池化、Deep Sets、Memory networks、Focal attention、GMM Fisher Vector、深度稀疏和二值Fisher Vector)将图像块嵌入集合聚合成单个WSI嵌入向量;4) 使用WSI嵌入向量进行WSI检索任务,并评估不同聚合方法的性能。

关键创新:论文的关键创新在于对多种集合表征学习技术在WSI表征学习任务上的系统性评估。虽然这些技术在其他领域已经有所应用,但将其应用于WSI表征学习并进行全面的性能比较是相对新颖的。此外,论文还对比了聚合方法与非聚合方法(最小距离中位数)的性能,为WSI检索任务提供了新的视角。

关键设计:论文的关键设计包括:1) 选择了多种具有代表性的集合表征学习技术,涵盖了简单的池化方法、基于深度学习的方法和基于Fisher向量的方法;2) 使用TCGA数据集的四个不同原发部位的数据进行实验,以评估不同方法在不同病理图像上的泛化能力;3) 使用WSI检索任务作为评估指标,直接反映了WSI表征向量的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在TCGA数据集的四个原发部位上进行了实验,对比了多种聚合方法的WSI检索性能。实验结果表明,不同的聚合方法在不同的数据集上表现各异,没有一种方法在所有数据集上都优于其他方法。此外,论文还发现,一些简单的聚合方法(如平均池化)在某些情况下可以取得与复杂方法相当甚至更好的性能。

🎯 应用场景

该研究成果可应用于数字病理学领域,提升WSI的检索效率和准确性,辅助病理医生进行疾病诊断、预后预测和治疗方案选择。通过高效的WSI表征学习,可以加速病理图像分析流程,降低人工阅片成本,并为大规模病理图像数据挖掘提供技术支持。

📄 摘要(原文)

A crucial step to efficiently integrate Whole Slide Images (WSIs) in computational pathology is assigning a single high-quality feature vector, i.e., one embedding, to each WSI. With the existence of many pre-trained deep neural networks and the emergence of foundation models, extracting embeddings for sub-images (i.e., tiles or patches) is straightforward. However, for WSIs, given their high resolution and gigapixel nature, inputting them into existing GPUs as a single image is not feasible. As a result, WSIs are usually split into many patches. Feeding each patch to a pre-trained model, each WSI can then be represented by a set of patches, hence, a set of embeddings. Hence, in such a setup, WSI representation learning reduces to set representation learning where for each WSI we have access to a set of patch embeddings. To obtain a single embedding from a set of patch embeddings for each WSI, multiple set-based learning schemes have been proposed in the literature. In this paper, we evaluate the WSI search performance of multiple recently developed aggregation techniques (mainly set representation learning techniques) including simple average or max pooling operations, Deep Sets, Memory networks, Focal attention, Gaussian Mixture Model (GMM) Fisher Vector, and deep sparse and binary Fisher Vector on four different primary sites including bladder, breast, kidney, and Colon from TCGA. Further, we benchmark the search performance of these methods against the median of minimum distances of patch embeddings, a non-aggregating approach used for WSI retrieval.