Zero-Shot Whole Slide Image Retrieval in Histopathology Using Embeddings of Foundation Models

作者: Saghir Alfasly, Ghazal Alabtah, Sobhan Hemati, Krishna Rani Kalari, H. R. Tizhoosh

分类: eess.IV, cs.AI, cs.CV

发布日期: 2024-09-06 (更新: 2024-09-12)

备注: This paper will be updated with more results

💡 一句话要点

利用预训练模型嵌入进行组织病理学中零样本全切片图像检索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全切片图像检索 组织病理学 零样本学习 预训练模型 特征嵌入

📋 核心要点

全切片图像（WSI）检索在病理诊断中至关重要，但现有方法依赖大量标注数据，泛化性受限。
本文探索了利用预训练模型提取的图像嵌入，直接进行零样本WSI检索，无需额外训练或微调。
实验结果表明，尽管使用了先进的预训练模型，零样本检索的性能仍有待提高，Top-5检索F1值最高为42%。

📝 摘要（中文）

本文评估了近期发布的组织病理学领域预训练模型在图像检索任务中的性能。报告了Top-1检索的F1宏平均值，以及Top-3和Top-5检索的多数检索F1值。研究采用零样本检索方式，即不修改嵌入，也不训练任何分类器。测试数据使用了TCGA（癌症基因组图谱）的诊断切片，包含23个器官和117个癌症亚型。研究使用Yottixel平台，该平台支持使用图像块进行WSI搜索。实验结果表明F1得分较低，例如，对于Top-5检索，Yottixel-DenseNet的F1值为27% +/- 13%，Yottixel-UNI为42% +/- 14%，Yottixel-Virchow为40% +/- 13%，Yottixel-GigaPath为41% +/- 13%，GigaPath WSI为41% +/- 14%。

🔬 方法详解

问题定义：本文旨在解决组织病理学中全切片图像（WSI）的检索问题。现有方法通常需要针对特定数据集进行训练，泛化能力较差，且标注成本高昂。零样本WSI检索旨在不进行任何训练的情况下，直接利用图像特征进行检索，从而提高效率和泛化性。

核心思路：本文的核心思路是利用已有的、在大量组织病理学图像上预训练的深度学习模型，提取WSI图像块的特征嵌入。然后，通过计算查询图像和数据库中图像的嵌入向量之间的相似度，实现零样本检索。这种方法避免了针对特定数据集的训练，提高了模型的泛化能力。

技术框架：整体流程如下：1) 使用Yottixel平台进行WSI图像块的提取和管理；2) 利用预训练模型（如DenseNet、UNI、Virchow、GigaPath）提取图像块的特征嵌入；3) 计算查询图像和数据库图像的嵌入向量之间的相似度（具体相似度度量方法未知）；4) 根据相似度对检索结果进行排序，返回Top-K个最相似的WSI。

关键创新：本文的关键创新在于探索了预训练模型在零样本WSI检索中的应用。通过直接利用预训练模型的特征提取能力，避免了针对特定数据集的训练，从而提高了模型的泛化能力。此外，本文还使用了Yottixel平台进行WSI图像块的管理和搜索，提高了检索效率。

关键设计：本文的关键设计包括：1) 选择了多个在组织病理学图像上预训练的深度学习模型，包括DenseNet、UNI、Virchow和GigaPath，以评估不同模型的性能；2) 使用TCGA数据集作为测试数据，该数据集包含23个器官和117个癌症亚型，具有较高的代表性；3) 评估了Top-1、Top-3和Top-5检索的F1得分，以全面评估检索性能。具体的相似度度量方法、图像块大小等参数设置未知。

📊 实验亮点

实验结果表明，尽管使用了先进的预训练模型，零样本WSI检索的性能仍有提升空间。在Top-5检索中，Yottixel-UNI取得了最高的F1值，为42% +/- 14%。其他模型的性能相近，Yottixel-DenseNet为27% +/- 13%，Yottixel-Virchow为40% +/- 13%，Yottixel-GigaPath为41% +/- 13%，GigaPath WSI为41% +/- 14%。这些结果表明，预训练模型在零样本WSI检索中具有一定的潜力，但仍需进一步优化。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统，帮助病理医生快速检索相似病例，提高诊断效率和准确性。此外，该方法还可以用于医学图像数据库的构建和管理，促进医学研究和知识共享。未来，通过优化预训练模型和检索算法，有望进一步提高零样本WSI检索的性能。

📄 摘要（原文）

We have tested recently published foundation models for histopathology for image retrieval. We report macro average of F1 score for top-1 retrieval, majority of top-3 retrievals, and majority of top-5 retrievals. We perform zero-shot retrievals, i.e., we do not alter embeddings and we do not train any classifier. As test data, we used diagnostic slides of TCGA, The Cancer Genome Atlas, consisting of 23 organs and 117 cancer subtypes. As a search platform we used Yottixel that enabled us to perform WSI search using patches. Achieved F1 scores show low performance, e.g., for top-5 retrievals, 27% +/- 13% (Yottixel-DenseNet), 42% +/- 14% (Yottixel-UNI), 40%+/-13% (Yottixel-Virchow), 41%+/-13% (Yottixel-GigaPath), and 41%+/-14% (GigaPath WSI).

Zero-Shot Whole Slide Image Retrieval in Histopathology Using Embeddings of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理