EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging

📄 arXiv: 2405.11338v2 📥 PDF

作者: Danli Shi, Weiyi Zhang, Xiaolan Chen, Yexin Liu, Jiancheng Yang, Siyu Huang, Yih Chung Tham, Yingfeng Zheng, Mingguang He

分类: cs.CV, cs.AI

发布日期: 2024-05-18 (更新: 2024-05-22)

备注: 21 pages, 2 figures, 4 tables


💡 一句话要点

EyeFound:用于眼科影像的多模态通用基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科影像 多模态学习 基础模型 对比学习 迁移学习 视觉问答 疾病诊断

📋 核心要点

  1. 现有眼科AI模型依赖大量标注且任务特定,限制了临床应用,多模态融合能力不足。
  2. EyeFound通过在大量无标签多模态视网膜图像上预训练,学习可泛化的特征表示。
  3. EyeFound在眼科疾病诊断、全身性疾病预测和零样本VQA任务上超越现有模型RETFound。

📝 摘要(中文)

人工智能在眼科领域至关重要,可用于诊断、分类和视觉问答(VQA)等任务。然而,现有的AI模型通常需要大量的标注,并且是特定于任务的,限制了它们的临床应用。虽然最近的发展带来了眼科的基础模型,但它们受到需要为每种成像模态训练单独权重的限制,阻碍了多模态特征的全面表示。这突显了对能够处理眼科各种任务和模态的通用基础模型的需求。为了解决这个差距,我们提出了EyeFound,一个用于眼科图像的多模态基础模型。与现有模型不同,EyeFound从无标签的多模态视网膜图像中学习可泛化的表示,从而能够跨多个应用高效地进行模型适配。EyeFound在来自227家医院的11种眼科模态的278万张图像上进行训练,促进了通用表示和多样化的多模态下游任务,甚至可以检测具有挑战性的罕见疾病。在诊断眼部疾病、预测全身性疾病事件和零样本多模态VQA方面,它优于之前的工作RETFound。EyeFound提供了一种通用的解决方案,以提高模型性能并减轻专家的标注负担,从而促进视网膜成像的广泛临床AI应用。

🔬 方法详解

问题定义:现有眼科AI模型在处理多模态数据时,通常需要为每种模态单独训练模型,无法有效融合不同模态的信息。此外,这些模型往往是任务特定的,泛化能力较差,需要大量标注数据才能在新的任务上取得良好的性能。这限制了它们在临床上的广泛应用,尤其是在处理罕见疾病时。

核心思路:EyeFound的核心思路是构建一个通用的多模态基础模型,该模型能够从大量的无标签眼科图像中学习到可泛化的特征表示。通过在多种模态的数据上进行联合训练,模型可以学习到不同模态之间的关联性,从而更好地理解眼科图像。这种通用表示可以方便地迁移到各种下游任务,减少对标注数据的依赖。

技术框架:EyeFound的整体架构包含一个多模态编码器和一个任务解码器。多模态编码器负责将不同模态的眼科图像编码成统一的特征向量。任务解码器则根据具体的下游任务,将特征向量解码成相应的输出,例如疾病诊断结果或视觉问答答案。模型采用对比学习的方式进行预训练,通过最大化相似图像之间的相似度,最小化不相似图像之间的相似度,从而学习到具有区分性的特征表示。

关键创新:EyeFound的关键创新在于其多模态通用表示学习能力。与以往需要为每种模态单独训练模型的方法不同,EyeFound能够从多种模态的数据中学习到统一的特征表示,从而更好地理解眼科图像。此外,EyeFound还采用了对比学习的方法进行预训练,使得模型能够学习到具有区分性的特征表示,从而提高了下游任务的性能。

关键设计:EyeFound的多模态编码器采用了Transformer架构,可以有效地捕捉图像中的长程依赖关系。模型使用了多种数据增强技术,例如随机裁剪、旋转和颜色抖动,以提高模型的鲁棒性。在对比学习中,模型使用了InfoNCE损失函数,以最大化相似图像之间的相似度,最小化不相似图像之间的相似度。模型在2.78 million张图像上进行了预训练,并在多个下游任务上进行了评估。

📊 实验亮点

EyeFound在眼科疾病诊断、全身性疾病预测和零样本多模态VQA任务上均取得了显著的性能提升。例如,在眼科疾病诊断任务中,EyeFound的准确率超过了之前的最佳模型RETFound。在零样本VQA任务中,EyeFound能够正确回答关于眼科图像的问题,而无需在特定数据集上进行训练,展示了其强大的泛化能力。

🎯 应用场景

EyeFound具有广泛的应用前景,可用于眼科疾病的自动诊断、疾病风险预测、个性化治疗方案制定等。通过减少对专家标注数据的依赖,EyeFound可以降低AI在眼科领域的应用成本,促进其在基层医疗机构的普及。此外,EyeFound还可以用于罕见眼科疾病的诊断,帮助医生更好地识别和治疗这些疾病,改善患者的预后。

📄 摘要(原文)

Artificial intelligence (AI) is vital in ophthalmology, tackling tasks like diagnosis, classification, and visual question answering (VQA). However, existing AI models in this domain often require extensive annotation and are task-specific, limiting their clinical utility. While recent developments have brought about foundation models for ophthalmology, they are limited by the need to train separate weights for each imaging modality, preventing a comprehensive representation of multi-modal features. This highlights the need for versatile foundation models capable of handling various tasks and modalities in ophthalmology. To address this gap, we present EyeFound, a multimodal foundation model for ophthalmic images. Unlike existing models, EyeFound learns generalizable representations from unlabeled multimodal retinal images, enabling efficient model adaptation across multiple applications. Trained on 2.78 million images from 227 hospitals across 11 ophthalmic modalities, EyeFound facilitates generalist representations and diverse multimodal downstream tasks, even for detecting challenging rare diseases. It outperforms previous work RETFound in diagnosing eye diseases, predicting systemic disease incidents, and zero-shot multimodal VQA. EyeFound provides a generalizable solution to improve model performance and lessen the annotation burden on experts, facilitating widespread clinical AI applications for retinal imaging.