Are Traditional Deep Learning Model Approaches as Effective as a Retinal-Specific Foundation Model for Ocular and Systemic Disease Detection?

📄 arXiv: 2501.12016v1 📥 PDF

作者: Samantha Min Er Yew, Xiaofeng Lei, Jocelyn Hui Lin Goh, Yibing Chen, Sahana Srinivasan, Miao-li Chee, Krithi Pushpanathan, Ke Zou, Qingshan Hou, Zhi Da Soh, Cancan Xue, Marco Chak Yan Yu, Charumathi Sabanayagam, E Shyong Tai, Xueling Sim, Yaxing Wang, Jost B. Jonas, Vinay Nangia, Gabriel Dawei Yang, Emma Anran Ran, Carol Yim-Lui Cheung, Yangqin Feng, Jun Zhou, Rick Siow Mong Goh, Yukun Zhou, Pearse A. Keane, Yong Liu, Ching-Yu Cheng, Yih-Chung Tham

分类: cs.CV, cs.LG

发布日期: 2025-01-21


💡 一句话要点

评估视网膜专用基础模型RETFound与传统深度学习模型在眼科和全身疾病检测中的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视网膜图像分析 基础模型 深度学习 眼科疾病检测 全身疾病检测

📋 核心要点

  1. 现有深度学习模型在眼科和全身疾病检测中表现良好,但缺乏针对视网膜图像的专门优化,可能限制其在小数据集上的性能。
  2. 本研究对比了视网膜专用基础模型RETFound与传统ImageNet预训练模型,旨在揭示它们在不同数据量下的性能差异。
  3. 实验结果表明,传统模型在大数据集上与RETFound相当,但在小数据集上,RETFound在全身疾病检测方面表现更优。

📝 摘要(中文)

本研究旨在评估视网膜专用自监督基础模型RETFound与三种ImageNet预训练的监督深度学习模型(ResNet50、ViT-base、SwinV2)在检测眼科和全身疾病方面的性能。研究中,我们在完整数据集、50%、20%的数据集以及固定样本量(400、200、100张图像,其中一半为疾病病例;对于每个DR严重程度类别,使用100和50个病例)上对RETFound和三种深度学习模型进行了微调/训练。微调后的模型使用SEED(53,090张图像)和APTOS-2019(3,672张图像)数据集进行内部测试,并使用基于人群的数据集(BES、CIEMS、SP2、UKBB)和开源数据集(ODIR-5k、PAPILA、GAMMA、IDRiD、MESSIDOR-2)进行外部验证。使用受试者工作特征曲线下面积(AUC)和Bonferroni校正的Z检验(P<0.05/3)比较模型性能。结果表明,对于大型数据集,传统深度学习模型在眼科疾病检测方面与RETFound基本相当。然而,对于较小的数据集,RETFound在全身疾病检测方面表现更优。这些发现为传统模型和基础模型的各自优点和局限性提供了有价值的见解。

🔬 方法详解

问题定义:论文旨在解决眼科和全身疾病的自动检测问题。现有方法,特别是基于ImageNet预训练的深度学习模型,在数据量充足的情况下表现良好,但在小样本情况下,其泛化能力可能受到限制。此外,这些模型并非专门针对视网膜图像进行优化,可能无法充分利用视网膜图像的特有信息。

核心思路:论文的核心思路是利用视网膜专用自监督基础模型RETFound,该模型通过在大量无标签视网膜图像上进行预训练,学习到视网膜图像的通用特征表示。然后,将RETFound与传统ImageNet预训练模型进行比较,评估它们在不同数据量下的性能差异。通过这种方式,可以了解RETFound在小样本学习和视网膜图像特征提取方面的优势。

技术框架:整体框架包括以下几个阶段:1) 使用大量无标签视网膜图像预训练RETFound;2) 在眼科和全身疾病检测数据集上微调RETFound和传统深度学习模型(ResNet50、ViT-base、SwinV2);3) 在内部和外部数据集上评估微调后的模型性能;4) 使用AUC和Z检验比较不同模型的性能。

关键创新:最重要的技术创新点在于使用了视网膜专用基础模型RETFound。与传统的ImageNet预训练模型相比,RETFound在视网膜图像上进行了专门的预训练,因此能够更好地提取视网膜图像的特征。此外,该研究还系统地比较了RETFound与传统模型在不同数据量下的性能,揭示了RETFound在小样本学习方面的优势。

关键设计:研究中使用了多种数据集,包括内部数据集(SEED、APTOS-2019)和外部数据集(BES、CIEMS、SP2、UKBB、ODIR-5k、PAPILA、GAMMA、IDRiD、MESSIDOR-2)。模型微调过程中,使用了不同的数据集大小(完整数据集、50%、20%、固定样本量)。性能评估指标为AUC,并使用Bonferroni校正的Z检验进行统计显著性分析。

📊 实验亮点

实验结果表明,在大型数据集上,传统深度学习模型在眼科疾病检测方面与RETFound基本相当。然而,在小数据集上,RETFound在全身疾病检测方面表现出显著优势。这表明视网膜专用基础模型在小样本学习方面具有潜力,能够提高疾病检测的准确性。

🎯 应用场景

该研究成果可应用于眼科疾病的早期筛查和诊断,特别是在数据资源有限的情况下。视网膜专用基础模型RETFound能够提高小样本学习的性能,有助于在资源匮乏地区或罕见疾病的诊断中发挥作用。此外,该研究也为基础模型在医学图像分析领域的应用提供了有益的参考。

📄 摘要(原文)

Background: RETFound, a self-supervised, retina-specific foundation model (FM), showed potential in downstream applications. However, its comparative performance with traditional deep learning (DL) models remains incompletely understood. This study aimed to evaluate RETFound against three ImageNet-pretrained supervised DL models (ResNet50, ViT-base, SwinV2) in detecting ocular and systemic diseases. Methods: We fine-tuned/trained RETFound and three DL models on full datasets, 50%, 20%, and fixed sample sizes (400, 200, 100 images, with half comprising disease cases; for each DR severity class, 100 and 50 cases were used. Fine-tuned models were tested internally using the SEED (53,090 images) and APTOS-2019 (3,672 images) datasets and externally validated on population-based (BES, CIEMS, SP2, UKBB) and open-source datasets (ODIR-5k, PAPILA, GAMMA, IDRiD, MESSIDOR-2). Model performance was compared using area under the receiver operating characteristic curve (AUC) and Z-tests with Bonferroni correction (P<0.05/3). Interpretation: Traditional DL models are mostly comparable to RETFound for ocular disease detection with large datasets. However, RETFound is superior in systemic disease detection with smaller datasets. These findings offer valuable insights into the respective merits and limitation of traditional models and FMs.