RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models

📄 arXiv: 2503.03987v1 📥 PDF

作者: Wenhui Zhu, Xin Li, Xiwen Chen, Peijie Qiu, Vamsi Krishna Vasa, Xuanzhao Dong, Yanxi Chen, Natasha Lepore, Oana Dumitrascu, Yi Su, Yalin Wang

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-03-06

🔗 代码/项目: GITHUB


💡 一句话要点

RetinalGPT:基于大型视觉语言模型的视网膜临床偏好对话助手

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视网膜图像分析 多模态大语言模型 视觉指令微调 医学图像诊断 定量分析 病灶定位 临床应用

📋 核心要点

  1. 现有医学领域MLLM在视网膜图像理解和定量分析方面存在不足,无法满足临床诊断的精确性需求。
  2. RetinalGPT通过构建大型视网膜图像数据集,并进行定制的视觉指令调整,提升模型在视网膜分析和医学知识方面的能力。
  3. 实验结果表明,RetinalGPT在视网膜疾病诊断方面显著优于通用MLLM,并具备定量分析和病灶定位功能。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLM)在处理和分析非文本数据(如图像、视频和音频)方面表现出卓越的能力,受到了广泛关注。特别是,一些通用领域MLLM已经被应用于医学领域,例如LLaVA-Med。然而,这些医学应用在理解和解释视网膜图像方面仍然不够先进。相比之下,医学专家强调定量分析对于疾病检测和解释的重要性。这突显了通用领域和医学领域MLLM之间的差距:通用领域MLLM擅长广泛的应用,但缺乏在医学领域进行精确诊断和解释任务所需的专业知识。为了应对这些挑战,我们推出RetinalGPT,一个用于视网膜图像临床偏好定量分析的多模态对话助手。具体来说,我们通过编译大型视网膜图像数据集,开发新的数据管道,并采用定制的视觉指令调整来增强视网膜分析和丰富医学知识来实现这一目标。特别地,RetinalGPT在8个基准视网膜数据集的视网膜疾病诊断中,大大优于通用领域的MLLM。除了疾病诊断,RetinalGPT还具有定量分析和病灶定位功能,代表着利用LLM进行可解释的端到端临床研究框架的开创性一步。代码可在https://github.com/Retinal-Research/RetinalGPT 获取。

🔬 方法详解

问题定义:现有通用领域的多模态大语言模型(MLLM)在处理医学图像,特别是视网膜图像时,缺乏足够的专业知识和定量分析能力。这导致它们在视网膜疾病诊断和解释方面表现不佳,无法满足临床医生的需求。现有方法难以进行精确的病灶定位和定量评估,阻碍了其在临床研究中的应用。

核心思路:RetinalGPT的核心思路是利用大规模视网膜图像数据,通过定制化的视觉指令微调,赋予MLLM更强的视网膜图像理解和分析能力。通过这种方式,模型不仅能够进行疾病诊断,还能提供定量分析和病灶定位等功能,从而更贴近临床医生的实际需求。这种方法旨在弥合通用MLLM与医学专业领域之间的知识鸿沟。

技术框架:RetinalGPT的整体框架包括以下几个主要阶段:1) 构建大规模视网膜图像数据集,包含各种视网膜疾病的图像和对应的临床信息。2) 开发数据处理pipeline,对图像进行预处理和增强,并生成用于视觉指令微调的训练数据。3) 使用预训练的MLLM作为基础模型,并利用构建的数据集进行视觉指令微调,提升模型在视网膜图像分析方面的能力。4) 对模型进行评估和优化,确保其在疾病诊断、定量分析和病灶定位等方面达到最佳性能。

关键创新:RetinalGPT的关键创新在于其定制化的视觉指令微调策略,该策略专门针对视网膜图像分析任务进行设计。与直接使用通用MLLM或简单地在医学图像上进行微调不同,RetinalGPT通过构建专门的数据集和设计特定的训练目标,使模型能够更好地理解和解释视网膜图像,并提供更精确的诊断和分析结果。此外,RetinalGPT还实现了定量分析和病灶定位功能,这在以前的MLLM医学应用中并不常见。

关键设计:RetinalGPT的关键设计包括:1) 大规模视网膜图像数据集的构建,确保模型能够学习到足够多的视网膜疾病特征。2) 数据pipeline的设计,包括图像预处理、增强和标注等环节,以提高数据的质量和多样性。3) 视觉指令微调策略的设计,包括选择合适的损失函数、调整学习率和优化器等参数,以确保模型能够有效地学习到视网膜图像分析的知识。4) 模型结构的调整,例如增加或修改某些网络层,以适应视网膜图像的特点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RetinalGPT在8个基准视网膜数据集上进行了评估,结果表明其在视网膜疾病诊断方面显著优于通用领域的MLLM。具体性能数据未知,但摘要强调了“large margin”的提升。此外,RetinalGPT还具备定量分析和病灶定位功能,这在同类模型中是较为突出的亮点。

🎯 应用场景

RetinalGPT具有广泛的应用前景,可用于辅助眼科医生进行视网膜疾病的诊断、病情评估和治疗方案制定。它还可以应用于远程医疗、患者教育和临床研究等领域。通过提供快速、准确的视网膜图像分析结果,RetinalGPT有望提高眼科医疗服务的效率和质量,并为患者带来更好的治疗效果。

📄 摘要(原文)

Recently, Multimodal Large Language Models (MLLMs) have gained significant attention for their remarkable ability to process and analyze non-textual data, such as images, videos, and audio. Notably, several adaptations of general-domain MLLMs to the medical field have been explored, including LLaVA-Med. However, these medical adaptations remain insufficiently advanced in understanding and interpreting retinal images. In contrast, medical experts emphasize the importance of quantitative analyses for disease detection and interpretation. This underscores a gap between general-domain and medical-domain MLLMs: while general-domain MLLMs excel in broad applications, they lack the specialized knowledge necessary for precise diagnostic and interpretative tasks in the medical field. To address these challenges, we introduce \textit{RetinalGPT}, a multimodal conversational assistant for clinically preferred quantitative analysis of retinal images. Specifically, we achieve this by compiling a large retinal image dataset, developing a novel data pipeline, and employing customized visual instruction tuning to enhance both retinal analysis and enrich medical knowledge. In particular, RetinalGPT outperforms MLLM in the generic domain by a large margin in the diagnosis of retinal diseases in 8 benchmark retinal datasets. Beyond disease diagnosis, RetinalGPT features quantitative analyses and lesion localization, representing a pioneering step in leveraging LLMs for an interpretable and end-to-end clinical research framework. The code is available at https://github.com/Retinal-Research/RetinalGPT