Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics

📄 arXiv: 2509.03421v1 📥 PDF

作者: Yukun Zhou, Paul Nderitu, Jocelyn Hui Lin Goh, Justin Engelmann, Siegfried K. Wagner, Anran Ran, Hongyang Jiang, Lie Ju, Ke Zou, Sahana Srinivasan, Hyunmin Kim, Takahiro Ninomiya, Zheyuan Wang, Gabriel Dawei Yang, Eden Ruffell, Dominic Williamson, Rui Santos, Gabor Mark Somfai, Carol Y. Cheung, Tien Yin Wong, Daniel C. Alexander, Yih Chung Tham, Pearse A. Keane

分类: eess.IV, cs.CV

发布日期: 2025-09-03

备注: 39 pages, 8 Figures


💡 一句话要点

领域专精的RETFound在眼科疾病和眼基因组学任务中优于通用视觉基础模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科疾病检测 视网膜图像 基础模型 领域专精模型 通用模型 迁移学习 眼基因组学

📋 核心要点

  1. 现有方法依赖于通用视觉基础模型,但在眼科特定任务中可能存在性能瓶颈,缺乏针对性。
  2. 该研究对比通用模型和领域专精模型在眼科任务中的表现,旨在评估领域特定预训练的必要性。
  3. 实验结果表明,专精的RETFound模型在眼科疾病检测和眼基因组学任务中优于通用模型,具有更强泛化性和数据效率。

📝 摘要(中文)

医学基础模型通过大规模临床数据预训练,在各种临床相关应用中表现出强大的性能。RETFound在近百万张视网膜图像上训练,是该方法在视网膜图像应用中的典范。然而,DINOv2和DINOv3等日益强大且规模更大的通用基础模型的出现,引发了领域特定预训练是否仍然必要的疑问,以及如果必要,差距何在。为了研究这一点,我们系统地评估了DINOv2和DINOv3在视网膜图像应用中的适应性,并将其与两个专精的RETFound模型RETFound-MAE和RETFound-DINOv2进行了比较。我们使用微调和线性探测两种适应策略评估了眼科疾病检测和全身性疾病预测的性能。进一步分析了数据效率和适应效率,以表征预测性能和计算成本之间的权衡。结果表明,尽管扩展通用模型可以在各种任务中产生强大的适应性,但RETFound-DINOv2在眼科疾病检测和眼基因组学任务中始终优于这些通用基础模型,表现出更强的泛化性和数据效率。这些发现表明,专精的视网膜基础模型仍然是临床应用中最有效的选择,而与通用基础模型之间差距的缩小表明,持续的数据和模型扩展可以带来领域相关的收益,并使其成为未来医学基础模型的强大基础。

🔬 方法详解

问题定义:论文旨在解决的问题是:在眼科疾病检测和眼基因组学任务中,领域专精的预训练模型(如RETFound)是否仍然优于大规模的通用视觉基础模型(如DINOv2和DINOv3)。现有方法主要依赖于通用模型或在小规模数据集上进行微调,缺乏对领域知识的有效利用,导致在特定任务上的性能受限。

核心思路:论文的核心思路是通过对比领域专精模型和通用模型在相同任务上的表现,来评估领域特定预训练的价值。如果领域专精模型能够显著优于通用模型,则表明领域特定预训练对于提升性能至关重要。同时,通过分析数据效率和适应效率,可以更好地理解两种模型的优劣势。

技术框架:整体框架包括以下几个主要步骤:1) 选择两个通用视觉基础模型(DINOv2和DINOv3)和两个领域专精的RETFound模型(RETFound-MAE和RETFound-DINOv2);2) 在眼科疾病检测和眼基因组学任务上,使用微调和线性探测两种适应策略对这些模型进行评估;3) 分析模型的预测性能、数据效率和适应效率,并进行对比分析。

关键创新:该研究的关键创新在于系统性地对比了通用视觉基础模型和领域专精模型在眼科特定任务中的表现,并量化了领域特定预训练的价值。此外,该研究还分析了数据效率和适应效率,为选择合适的预训练模型提供了指导。

关键设计:在实验设计方面,论文选择了具有代表性的通用模型(DINOv2和DINOv3)和领域专精模型(RETFound-MAE和RETFound-DINOv2),并使用了两种常用的适应策略(微调和线性探测)。在评估指标方面,论文考虑了预测性能、数据效率和适应效率,从而全面地评估了模型的性能。

📊 实验亮点

实验结果表明,在眼科疾病检测和眼基因组学任务中,RETFound-DINOv2始终优于通用基础模型DINOv2和DINOv3,表现出更强的泛化性和数据效率。这表明,即使通用模型规模不断扩大,领域专精的预训练模型仍然具有优势。具体性能提升幅度未知,需要在论文中查找详细数据。

🎯 应用场景

该研究成果可应用于眼科疾病的早期诊断、个性化治疗方案的制定以及全身性疾病的预测。通过利用领域专精的预训练模型,可以提高诊断的准确性和效率,从而改善患者的预后。此外,该研究也为医学基础模型的未来发展方向提供了参考,即在数据和模型规模不断扩大的同时,领域特定预训练仍然具有重要价值。

📄 摘要(原文)

Medical foundation models, pre-trained with large-scale clinical data, demonstrate strong performance in diverse clinically relevant applications. RETFound, trained on nearly one million retinal images, exemplifies this approach in applications with retinal images. However, the emergence of increasingly powerful and multifold larger generalist foundation models such as DINOv2 and DINOv3 raises the question of whether domain-specific pre-training remains essential, and if so, what gap persists. To investigate this, we systematically evaluated the adaptability of DINOv2 and DINOv3 in retinal image applications, compared to two specialist RETFound models, RETFound-MAE and RETFound-DINOv2. We assessed performance on ocular disease detection and systemic disease prediction using two adaptation strategies: fine-tuning and linear probing. Data efficiency and adaptation efficiency were further analysed to characterise trade-offs between predictive performance and computational cost. Our results show that although scaling generalist models yields strong adaptability across diverse tasks, RETFound-DINOv2 consistently outperforms these generalist foundation models in ocular-disease detection and oculomics tasks, demonstrating stronger generalisability and data efficiency. These findings suggest that specialist retinal foundation models remain the most effective choice for clinical applications, while the narrowing gap with generalist foundation models suggests that continued data and model scaling can deliver domain-relevant gains and position them as strong foundations for future medical foundation models.