EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis

📄 arXiv: 2409.06644v2 📥 PDF

作者: Danli Shi, Weiyi Zhang, Jiancheng Yang, Siyu Huang, Xiaolan Chen, Mayinuer Yusufu, Kai Jin, Shan Lin, Shunming Liu, Qing Zhang, Mingguang He

分类: cs.CV, cs.AI

发布日期: 2024-09-10 (更新: 2024-09-11)


💡 一句话要点

EyeCLIP:用于多模态眼科图像分析的视觉-语言基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科图像分析 多模态学习 视觉-语言模型 对比学习 长尾分布

📋 核心要点

  1. 现有眼科基础模型侧重于单一模态,忽略了多模态信息融合,限制了诊断的准确性。
  2. EyeCLIP通过结合自监督重建、多模态图像对比学习和图像-文本对比学习,学习多模态的共享表示。
  3. EyeCLIP在多个眼科任务上取得了SOTA性能,尤其在长尾场景下展现出强大的小样本和零样本能力。

📝 摘要(中文)

本文提出EyeCLIP,一个利用超过277万张多模态眼科图像和部分文本数据开发的视觉-语言基础模型。眼科疾病(如青光眼、黄斑变性和糖尿病视网膜病变)的早期检测对于预防视力丧失至关重要。现有眼科基础模型主要关注单一模态,而眼科疾病诊断需要多种模态信息。此外,临床文本的整合对于捕捉更广泛的疾病谱至关重要。EyeCLIP采用了一种预训练策略,结合了自监督重建、多模态图像对比学习和图像-文本对比学习,以学习多模态的共享表示。在14个基准数据集上的评估表明,EyeCLIP可以迁移到涉及眼部和全身疾病的各种下游任务,在疾病分类、视觉问答和跨模态检索方面实现了最先进的性能,尤其是在真实世界的长尾场景中展现出小样本甚至零样本能力。

🔬 方法详解

问题定义:现有眼科AI模型主要集中于单一模态图像分析,忽略了眼科疾病诊断通常需要多种模态信息(如眼底照片、OCT图像、临床文本)的事实。此外,眼科疾病具有长尾分布的特点,传统的监督学习方法难以有效处理罕见疾病。

核心思路:EyeCLIP的核心在于构建一个能够理解和融合多模态眼科信息的视觉-语言基础模型。通过对比学习,将不同模态的图像和文本信息映射到同一个语义空间,从而实现跨模态的知识迁移和泛化。

技术框架:EyeCLIP的整体框架包括图像编码器、文本编码器和一个对比学习模块。图像编码器负责提取不同模态眼科图像的视觉特征,文本编码器负责提取临床文本的语义特征。对比学习模块则通过最大化图像和对应文本之间的相似性,最小化图像和非对应文本之间的相似性,来学习多模态的共享表示。

关键创新:EyeCLIP的关键创新在于其多模态对比学习策略,该策略能够有效地利用大量的无标签多模态数据,学习到更鲁棒和泛化的视觉-语言表示。此外,EyeCLIP还结合了自监督重建任务,进一步提升了图像编码器的特征提取能力。

关键设计:EyeCLIP使用了Transformer作为图像和文本编码器的骨干网络。对比学习损失函数采用了InfoNCE损失,以鼓励模型学习到更具区分性的特征表示。在训练过程中,采用了数据增强技术来提高模型的鲁棒性。具体的参数设置(如学习率、batch size等)和网络结构细节在论文中有详细描述。

📊 实验亮点

EyeCLIP在14个眼科基准数据集上进行了评估,并在疾病分类、视觉问答和跨模态检索等任务上取得了最先进的性能。尤其是在长尾疾病的识别方面,EyeCLIP展现出了强大的小样本和零样本学习能力,显著优于现有的单模态模型。

🎯 应用场景

EyeCLIP在眼科疾病的早期诊断、辅助诊断和个性化治疗方面具有广泛的应用前景。它可以帮助医生更准确地识别疾病,减少误诊和漏诊,并为患者提供更有效的治疗方案。此外,EyeCLIP还可以应用于远程医疗和健康管理,为偏远地区的患者提供高质量的眼科服务。

📄 摘要(原文)

Early detection of eye diseases like glaucoma, macular degeneration, and diabetic retinopathy is crucial for preventing vision loss. While artificial intelligence (AI) foundation models hold significant promise for addressing these challenges, existing ophthalmic foundation models primarily focus on a single modality, whereas diagnosing eye diseases requires multiple modalities. A critical yet often overlooked aspect is harnessing the multi-view information across various modalities for the same patient. Additionally, due to the long-tail nature of ophthalmic diseases, standard fully supervised or unsupervised learning approaches often struggle. Therefore, it is essential to integrate clinical text to capture a broader spectrum of diseases. We propose EyeCLIP, a visual-language foundation model developed using over 2.77 million multi-modal ophthalmology images with partial text data. To fully leverage the large multi-modal unlabeled and labeled data, we introduced a pretraining strategy that combines self-supervised reconstructions, multi-modal image contrastive learning, and image-text contrastive learning to learn a shared representation of multiple modalities. Through evaluation using 14 benchmark datasets, EyeCLIP can be transferred to a wide range of downstream tasks involving ocular and systemic diseases, achieving state-of-the-art performance in disease classification, visual question answering, and cross-modal retrieval. EyeCLIP represents a significant advancement over previous methods, especially showcasing few-shot, even zero-shot capabilities in real-world long-tail scenarios.