Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval

作者: Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia, Ramona Woitek

分类: cs.CV

发布日期: 2024-09-14 (更新: 2025-03-26)

备注: 37 pages

DOI: 10.1016/j.engappai.2025.110571

🔗 代码/项目: GITHUB

💡 一句话要点

评估预训练CNN和Foundation模型在医学图像检索中的特征提取性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学图像检索 内容检索 预训练模型 卷积神经网络 Foundation模型 特征提取 迁移学习

📋 核心要点

现有CBMIR方法依赖手工设计的特征或浅层学习，难以捕捉医学图像的复杂语义信息，预训练模型有望解决此问题。
本研究探索了预训练CNN和Foundation模型作为特征提取器在CBMIR中的性能，并分析了图像尺寸的影响。
实验表明，Foundation模型在2D医学图像上优于CNN，而CNN和Foundation模型在3D图像上表现相当，UNI和CONCH分别取得最佳性能。

📝 摘要（中文）

医学图像检索是指在数据库中为给定的查询图像寻找相似图像的任务，其应用包括辅助诊断。传统医学图像检索依赖于临床元数据，而基于内容的医学图像检索（CBMIR）则依赖于图像特征，这些特征可以自动或半自动地提取。已经提出了许多CBMIR方法，其中，使用预训练卷积神经网络（CNN）是一种广泛使用的方法。然而，考虑到各种计算机视觉任务的Foundation模型开发的最新进展，它们在CBMIR中的应用也值得研究。本研究使用了来自知名预训练CNN和预训练Foundation模型的多个预训练特征提取器，并研究了CBMIR在八种类型的二维（2D）和三维（3D）医学图像上的性能。此外，我们还研究了图像大小对CBMIR性能的影响。结果表明，总体而言，对于2D数据集，Foundation模型比CNN提供明显更优越的性能，用于计算病理学的通用自监督模型（UNI）在所有数据集和图像大小上提供了最佳的总体性能。对于3D数据集，CNN和Foundation模型提供了更具竞争力的性能，来自组织病理学模型字幕的对比学习（CONCH）实现了最佳的总体性能。此外，我们的研究结果证实，虽然使用较大的图像尺寸（特别是对于2D数据集）会产生稍微更好的性能，但即使使用较小的图像尺寸，仍然可以实现具有竞争力的CBMIR性能。

🔬 方法详解

问题定义：论文旨在解决基于内容的医学图像检索(CBMIR)问题。现有方法，特别是依赖手工特征或浅层学习的方法，无法充分利用医学图像中复杂的语义信息，导致检索精度不高。此外，如何选择合适的预训练模型以及图像尺寸对检索性能的影响也缺乏深入研究。

核心思路：论文的核心思路是利用预训练的卷积神经网络(CNN)和Foundation模型作为特征提取器，将医学图像转换为高维特征向量，然后通过计算特征向量之间的相似度来进行图像检索。通过比较不同预训练模型和图像尺寸下的检索性能，找到适用于不同类型医学图像的最佳特征提取方案。

技术框架：整体流程包括：1) 选择预训练的CNN和Foundation模型（如UNI、CONCH等）；2) 将医学图像输入到预训练模型中，提取图像的特征向量；3) 使用余弦相似度等度量方法计算查询图像与数据库中图像的特征向量之间的相似度；4) 根据相似度对数据库中的图像进行排序，返回与查询图像最相似的图像。

关键创新：论文的关键创新在于系统性地评估了多种预训练CNN和Foundation模型在CBMIR任务中的性能，并针对2D和3D医学图像提出了不同的模型选择策略。此外，论文还研究了图像尺寸对检索性能的影响，为实际应用中选择合适的图像尺寸提供了指导。

关键设计：论文的关键设计包括：1) 选择了具有代表性的预训练CNN和Foundation模型，涵盖了不同架构和训练方式；2) 使用了多种医学图像数据集，包括2D和3D图像，以评估模型的泛化能力；3) 采用了常用的余弦相似度作为相似度度量方法；4) 通过实验分析了不同图像尺寸对检索性能的影响，并给出了实际应用中的建议。

🖼️ 关键图片

📊 实验亮点

实验结果表明，对于2D医学图像，Foundation模型（特别是UNI）的检索性能明显优于CNN。对于3D医学图像，CNN和Foundation模型的性能相当，CONCH模型表现最佳。此外，研究发现适当增大图像尺寸可以略微提升检索性能，但即使使用较小尺寸的图像也能获得具有竞争力的结果。

🎯 应用场景

该研究成果可应用于临床辅助诊断、医学图像数据库管理、医学教育等领域。医生可以通过输入患者的医学图像，快速检索到相似病例，从而辅助诊断和制定治疗方案。医学图像数据库可以利用该技术提高图像检索效率和准确性。医学生可以通过检索相似图像，加深对疾病的理解。

📄 摘要（原文）

Medical image retrieval refers to the task of finding similar images for given query images in a database, with applications such as diagnosis support. While traditional medical image retrieval relied on clinical metadata, content-based medical image retrieval (CBMIR) depends on image features, which can be extracted automatically or semi-automatically. Many approaches have been proposed for CBMIR, and among them, using pre-trained convolutional neural networks (CNNs) is a widely utilized approach. However, considering the recent advances in the development of foundation models for various computer vision tasks, their application for CBMIR can also be investigated. In this study, we used several pre-trained feature extractors from well-known pre-trained CNNs and pre-trained foundation models and investigated the CBMIR performance on eight types of two-dimensional (2D) and three-dimensional (3D) medical images. Furthermore, we investigated the effect of image size on the CBMIR performance. Our results show that, overall, for the 2D datasets, foundation models deliver superior performance by a large margin compared to CNNs, with the general-purpose self-supervised model for computational pathology (UNI) providing the best overall performance across all datasets and image sizes. For 3D datasets, CNNs and foundation models deliver more competitive performance, with contrastive learning from captions for histopathology model (CONCH) achieving the best overall performance. Moreover, our findings confirm that while using larger image sizes (especially for 2D datasets) yields slightly better performance, competitive CBMIR performance can still be achieved even with smaller image sizes. Our codes to reproduce the results are available at: https://github.com/masih4/MedImageRetrieval.

Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理