Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
作者: Cindy Lie Tabuse, David Restepo, Carolina Gracitelli, Fernando Korn Malerbi, Caio Regatieri, Luis Filipe Nakayama
分类: cs.CL
发布日期: 2025-07-02
💡 一句话要点
评估大型语言模型在糖尿病视网膜病变和青光眼筛查中多模态模拟眼科决策的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 眼科诊断 糖尿病视网膜病变 青光眼筛查 临床决策 多模态学习 GPT-4
📋 核心要点
- 现有眼科决策依赖专家经验,缺乏自动化和可扩展性,大型语言模型在模拟临床推理方面潜力巨大。
- 本研究利用GPT-4,通过结构化文本描述和元数据,模拟眼科疾病(糖尿病视网膜病变和青光眼)的诊断和转诊决策。
- 实验结果表明,GPT-4在简单任务(如DR转诊)中表现尚可,但在复杂任务(如青光眼转诊)中性能较差,有待提高。
📝 摘要(中文)
本研究评估了大型语言模型(LLM)GPT-4基于自然语言提示解释视网膜眼底照片的结构化文本描述,并模拟糖尿病视网膜病变(DR)和青光眼筛查临床决策的能力,包括添加真实或合成临床元数据的影响。我们使用300张带注释的眼底图像进行了回顾性诊断验证研究。GPT-4接收了描述每张图像的结构化提示,有或没有患者元数据。模型需要分配ICDR严重程度评分,推荐DR转诊,并估计青光眼转诊的杯盘比。使用准确率、宏平均和加权F1分数以及Cohen's kappa评估性能。McNemar检验和变化率分析用于评估元数据的影响。GPT-4在ICDR分类中表现出中等水平(准确率67.5%,宏平均F1 0.33,加权F1 0.67,kappa 0.25),主要由正确识别正常病例驱动。在二元DR转诊任务中,性能有所提高(准确率82.3%,F1 0.54,kappa 0.44)。对于青光眼转诊,所有设置下的性能都很差(准确率约78%,F1 <0.04,kappa <0.03)。元数据的包含没有显着影响结果(McNemar p > 0.05),并且预测在各种条件下保持一致。GPT-4可以从结构化提示中模拟基本的眼科决策,但缺乏复杂任务的精确性。虽然不适合临床使用,但LLM可能有助于眼科的教育、文档编制或图像注释工作流程。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型在模拟眼科临床决策方面的能力,具体针对糖尿病视网膜病变(DR)和青光眼筛查。现有方法依赖于眼科医生的专业知识,存在主观性和效率问题。利用LLM进行辅助诊断可以提高效率并降低成本。
核心思路:核心思路是将眼底图像的结构化文本描述作为LLM的输入,让LLM模拟眼科医生的诊断和转诊决策过程。通过评估LLM的诊断准确率和一致性,来判断其在眼科领域的应用潜力。加入临床元数据,考察其对模型性能的影响。
技术框架:整体流程包括:1)收集带标注的眼底图像数据集;2)将图像转化为结构化的文本描述,包括病灶位置、大小、颜色等信息;3)构建包含或不包含临床元数据的提示(prompt);4)使用GPT-4模型进行推理,输出ICDR严重程度评分、DR转诊建议和杯盘比估计;5)使用准确率、F1分数和Kappa系数等指标评估模型性能。
关键创新:本研究的关键创新在于探索了大型语言模型在眼科诊断领域的应用潜力,并验证了其在模拟临床决策方面的可行性。与传统方法相比,LLM能够自动处理大量的图像数据,并提供一致的诊断结果。此外,研究还考察了临床元数据对模型性能的影响,为后续研究提供了参考。
关键设计:研究中使用了GPT-4模型,并针对眼科诊断任务设计了特定的提示(prompt)结构。提示包括眼底图像的结构化文本描述和患者的临床元数据(如年龄、性别、病史等)。模型输出包括ICDR严重程度评分(0-5级)、DR转诊建议(是/否)和杯盘比估计(0-1)。使用准确率、宏平均F1分数、加权F1分数和Cohen's kappa系数来评估模型性能。McNemar检验用于评估元数据的影响。
🖼️ 关键图片
📊 实验亮点
GPT-4在二元DR转诊任务中表现出较好的性能,准确率达到82.3%,F1值为0.54,Kappa系数为0.44。这表明LLM在简单眼科决策任务中具有一定的潜力。然而,在更复杂的青光眼转诊任务中,GPT-4的性能较差(准确率约78%,F1 <0.04,kappa <0.03),表明其在处理复杂眼科图像和临床信息方面仍存在挑战。元数据的加入对模型性能没有显著影响。
🎯 应用场景
该研究成果可应用于眼科疾病的辅助诊断、远程医疗和医学教育等领域。LLM可以帮助医生提高诊断效率,减少误诊率,并为患者提供更便捷的医疗服务。此外,LLM还可以用于医学图像的自动标注和分析,为医学研究提供支持。未来,结合更先进的图像处理技术和更强大的LLM,有望实现更精准、更智能的眼科疾病诊断。
📄 摘要(原文)
Large language models (LLMs) can simulate clinical reasoning based on natural language prompts, but their utility in ophthalmology is largely unexplored. This study evaluated GPT-4's ability to interpret structured textual descriptions of retinal fundus photographs and simulate clinical decisions for diabetic retinopathy (DR) and glaucoma screening, including the impact of adding real or synthetic clinical metadata. We conducted a retrospective diagnostic validation study using 300 annotated fundus images. GPT-4 received structured prompts describing each image, with or without patient metadata. The model was tasked with assigning an ICDR severity score, recommending DR referral, and estimating the cup-to-disc ratio for glaucoma referral. Performance was evaluated using accuracy, macro and weighted F1 scores, and Cohen's kappa. McNemar's test and change rate analysis were used to assess the influence of metadata. GPT-4 showed moderate performance for ICDR classification (accuracy 67.5%, macro F1 0.33, weighted F1 0.67, kappa 0.25), driven mainly by correct identification of normal cases. Performance improved in the binary DR referral task (accuracy 82.3%, F1 0.54, kappa 0.44). For glaucoma referral, performance was poor across all settings (accuracy ~78%, F1 <0.04, kappa <0.03). Metadata inclusion did not significantly affect outcomes (McNemar p > 0.05), and predictions remained consistent across conditions. GPT-4 can simulate basic ophthalmic decision-making from structured prompts but lacks precision for complex tasks. While not suitable for clinical use, LLMs may assist in education, documentation, or image annotation workflows in ophthalmology.