VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge

作者: Zihan Li, Diping Song, Zefeng Yang, Deming Wang, Fei Li, Xiulan Zhang, Paul E. Kinahan, Yu Qiao

分类: eess.IV, cs.AI, cs.CL, cs.CV

发布日期: 2024-08-05 (更新: 2025-08-11)

备注: Accepted by IEEE TPAMI, 14 pages, 15 tables, 4 figures with Appendix

🔗 代码/项目: GITHUB

💡 一句话要点

VisionUnite：临床知识增强的眼科视觉-语言基础模型，提升诊断能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 眼科诊断 医学图像处理 临床知识增强 多模态学习

📋 核心要点

现有眼科诊断方法在资源匮乏地区存在局限性，缺乏专家和先进设备。
VisionUnite通过预训练和MMFundus数据集优化，融合视觉和语言信息，提升诊断能力。
实验表明，VisionUnite性能优于GPT-4V等模型，诊断能力与初级眼科医生相当。

📝 摘要（中文）

本文介绍了一种名为VisionUnite的新型眼科视觉-语言基础模型，旨在改善眼科诊断方法，尤其是在专家和先进设备有限的不发达地区。VisionUnite在包含124万个图像-文本对的大型数据集上进行了预训练，并使用我们提出的MMFundus数据集进行了进一步优化，该数据集包括296,379个高质量的眼底图像-文本对和889,137个模拟的医患对话实例。实验表明，VisionUnite优于现有的生成式基础模型，如GPT-4V和Gemini Pro，并且展示了与初级眼科医生相当的诊断能力。VisionUnite在各种临床场景中表现良好，包括开放式的多疾病诊断、临床解释和患者互动，使其成为一种高度通用的眼科疾病初步筛查工具。VisionUnite还可以作为初级眼科医生的教育辅助工具，加速他们对常见和未被充分重视的眼科疾病知识的获取。VisionUnite代表了眼科领域的重大进步，对诊断、医学教育和疾病机制的理解具有广泛的影响。

🔬 方法详解

问题定义：现有眼科诊断方法在资源有限的地区面临挑战，缺乏足够的专家和先进设备进行准确诊断。现有方法在处理多疾病诊断、临床解释和患者互动等复杂场景时存在局限性。

核心思路：VisionUnite的核心思路是构建一个视觉-语言基础模型，通过大规模的图像-文本数据预训练，使其能够理解眼科图像并生成相应的文本描述和诊断结果。通过模拟医患对话，增强模型在临床场景中的应用能力。

技术框架：VisionUnite的整体框架包括预训练阶段和微调阶段。在预训练阶段，模型在大规模的图像-文本数据集上进行训练，学习视觉和语言之间的关联。在微调阶段，模型使用MMFundus数据集进行优化，该数据集包含高质量的眼底图像-文本对和模拟的医患对话实例。模型采用Transformer架构，包含视觉编码器和文本解码器。

关键创新：VisionUnite的关键创新在于其结合了视觉和语言信息，并利用模拟的医患对话数据进行训练，从而增强了模型在临床场景中的应用能力。MMFundus数据集的构建也是一个重要的创新，它提供了高质量的眼底图像-文本对和模拟的医患对话实例，为模型的训练提供了充足的数据。

关键设计：MMFundus数据集包含296,379个高质量的眼底图像-文本对和889,137个模拟的医患对话实例。模型采用Transformer架构，视觉编码器可以使用预训练的视觉模型（如ViT），文本解码器可以使用预训练的语言模型（如BERT）。损失函数包括图像-文本对比损失和语言模型损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VisionUnite在多疾病诊断、临床解释和患者互动等任务中表现出色，优于GPT-4V和Gemini Pro等现有模型。在眼科诊断能力方面，VisionUnite达到了与初级眼科医生相当的水平。MMFundus数据集的有效性也得到了验证，使用该数据集进行微调可以显著提升模型的性能。

🎯 应用场景

VisionUnite可应用于眼科疾病的初步筛查、辅助诊断和医学教育。它可以帮助资源匮乏地区的医生进行快速准确的诊断，减少误诊率。同时，VisionUnite可以作为初级眼科医生的教育工具，加速他们对眼科疾病的理解和诊断能力的提升。未来，VisionUnite有望应用于远程医疗和患者自助诊断等领域。

📄 摘要（原文）

The need for improved diagnostic methods in ophthalmology is acute, especially in the underdeveloped regions with limited access to specialists and advanced equipment. Therefore, we introduce VisionUnite, a novel vision-language foundation model for ophthalmology enhanced with clinical knowledge. VisionUnite has been pretrained on an extensive dataset comprising 1.24 million image-text pairs, and further refined using our proposed MMFundus dataset, which includes 296,379 high-quality fundus image-text pairs and 889,137 simulated doctor-patient dialogue instances. Our experiments indicate that VisionUnite outperforms existing generative foundation models such as GPT-4V and Gemini Pro. It also demonstrates diagnostic capabilities comparable to junior ophthalmologists. VisionUnite performs well in various clinical scenarios including open-ended multi-disease diagnosis, clinical explanation, and patient interaction, making it a highly versatile tool for initial ophthalmic disease screening. VisionUnite can also serve as an educational aid for junior ophthalmologists, accelerating their acquisition of knowledge regarding both common and underrepresented ophthalmic conditions. VisionUnite represents a significant advancement in ophthalmology, with broad implications for diagnostics, medical education, and understanding of disease mechanisms. The source code is at https://github.com/HUANGLIZI/VisionUnite.

VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理