Toward Multimodal Conversational AI for Age-Related Macular Degeneration

📄 arXiv: 2604.25720v1 📥 PDF

作者: Ran Gu, Benjamin Hou, Mélanie Hébert, Asmita Indurkar, Yifan Yang, Emily Y. Chew, Tiarnán D. L. Keenan, Zhiyong Lu

分类: cs.CV, cs.CL

发布日期: 2026-04-28

备注: 38 pages, 4 figures


💡 一句话要点

OcularChat:用于年龄相关性黄斑变性的多模态对话式AI

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 医学图像分析 年龄相关性黄斑变性 视觉问答

📋 核心要点

  1. 现有视网膜疾病检测系统缺乏临床推理和交互式解释能力,难以支持临床决策和患者咨询。
  2. OcularChat通过模拟医患对话进行微调,结合视觉问答和临床知识,实现AMD的诊断和解释。
  3. OcularChat在AMD诊断任务中显著优于现有MLLM,并在眼科医生评估中表现出更强的临床实用性。

📝 摘要(中文)

本研究提出OcularChat,一个基于Qwen2.5-VL微调的多模态大型语言模型(MLLM),用于通过彩色眼底照片(CFPs)上的视觉问答来诊断年龄相关性黄斑变性(AMD)。研究人员生成了总计705,850个模拟的医患对话,并配以46,167张CFP,以训练OcularChat识别关键的AMD特征并产生合理的预测。在AREDS数据集上,OcularChat在高级AMD、色素异常和玻璃膜疣大小这三个诊断任务中分别取得了0.954、0.849和0.678的准确率,显著优于现有的MLLM。在AREDS2数据集上,OcularChat在所有任务中仍然表现最佳。在三位独立的眼科医生评估中,OcularChat在高级AMD、色素异常、玻璃膜疣大小和总体印象方面的平均得分均高于强基线模型。除了在AMD严重程度分类方面表现出强大的客观性能外,OcularChat还展示了提供诊断推理、临床相关解释和交互式对话的能力,并在主观眼科医生评估中表现出色。这些发现表明,MLLM可以实现准确、可解释且具有临床实用价值的基于图像的AMD诊断和分类。

🔬 方法详解

问题定义:论文旨在解决年龄相关性黄斑变性(AMD)的诊断问题。现有深度学习模型虽然在视网膜疾病检测方面表现出色,但大多只能给出静态预测,缺乏临床推理和交互式解释能力,无法有效支持临床决策和患者咨询。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)的强大能力,将图像诊断与临床对话相结合。通过模拟医患对话,让模型学习如何从眼底照片中提取关键特征,并结合临床知识进行推理和解释,从而实现更准确、可解释和具有临床实用价值的AMD诊断。

技术框架:OcularChat基于Qwen2.5-VL进行微调。整体流程包括:1) 数据生成:生成包含眼底照片和模拟医患对话的数据集;2) 模型训练:使用生成的数据集对Qwen2.5-VL进行微调,使其具备AMD诊断和解释能力;3) 模型评估:在AREDS和AREDS2数据集上进行客观评估,并邀请眼科医生进行主观评估。

关键创新:该论文的关键创新在于将MLLM应用于AMD诊断,并利用模拟医患对话进行微调,使模型具备了临床推理和交互式解释能力。与现有方法相比,OcularChat不仅能够给出诊断结果,还能提供诊断依据和临床建议,更贴近临床需求。

关键设计:论文的关键设计包括:1) 大规模模拟对话数据集的生成,保证了模型训练的充分性;2) 基于Qwen2.5-VL进行微调,利用了预训练模型的强大能力;3) 采用视觉问答的方式进行诊断,使模型能够根据用户提出的问题进行针对性回答;4) 采用客观指标和主观评估相结合的方式,全面评估模型的性能。

📊 实验亮点

OcularChat在AREDS数据集上,高级AMD、色素异常和玻璃膜疣大小的诊断准确率分别达到0.954、0.849和0.678,显著优于现有MLLM。在AREDS2数据集上,OcularChat在所有任务中均表现最佳。眼科医生评估结果显示,OcularChat在高级AMD、色素异常、玻璃膜疣大小和总体印象方面的平均得分均高于强基线模型。

🎯 应用场景

OcularChat有望应用于眼科疾病的远程诊断、患者教育和临床决策支持。它可以帮助医生更准确地诊断AMD,并向患者提供个性化的治疗建议。此外,OcularChat还可以作为一种辅助工具,用于培训眼科医生,提高其诊断水平。未来,该技术有望推广到其他眼科疾病的诊断和管理中。

📄 摘要(原文)

Despite strong performance of deep learning models in retinal disease detection, most systems produce static predictions without clinical reasoning or interactive explanation. Recent advances in multimodal large language models (MLLMs) integrate diagnostic predictions with clinically meaningful dialogue to support clinical decision-making and patient counseling. In this study, OcularChat, an MLLM, was fine-tuned from Qwen2.5-VL using simulated patient-physician dialogues to diagnose age-related macular degeneration (AMD) through visual question answering on color fundus photographs (CFPs). A total of 705,850 simulated dialogues paired with 46,167 CFPs were generated to train OcularChat to identify key AMD features and produce reasoned predictions. OcularChat demonstrated strong classification performance in AREDS, achieving accuracies of 0.954, 0.849, and 0.678 for the three diagnostic tasks: advanced AMD, pigmentary abnormalities, and drusen size, significantly outperforming existing MLLMs. On AREDS2, OcularChat remained the top-performing method on all tasks. Across three independent ophthalmologist graders, OcularChat achieved higher mean scores than a strong baseline model for advanced AMD (3.503 vs. 2.833), pigmentary abnormalities (3.272 vs. 2.828), drusen size (3.064 vs. 2.433), and overall impression (2.978 vs. 2.464) on a 5-point clinical grading rubric. Beyond strong objective performance in AMD severity classification, OcularChat demonstrated the ability to provide diagnostic reasoning, clinically relevant explanations, and interactive dialogue, with high performance in subjective ophthalmologist evaluation. These findings suggest that MLLMs may enable accurate, interpretable, and clinically useful image-based diagnosis and classification of AMD.