LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation
作者: Hyunjae Kim, Xuguang Ai, Sahana Srinivasan, Aidan Gilson, Maxwell B. Singer, Krithi Pushpanathan, Qianqian Xie, Jungwoo Park, Serina Applebaum, Gabriel Dawei Yang, Minjie Zou, David Ziyou Chen, Ke Zou, Soshian Sarrafpour, Ji Liu, Yu Yin, Jimin Huang, Quang Ngoc Nguyen, Erping Long, Peixing Wan, Dianbo Liu, Richard Hintz, W. Jim Zheng, Sophia Y. Wang, Lucila Ohno-Machado, Hua Xu, Ron A. Adelman, Luciano V. Del Priore, Yih-Chung Tham, Qingyu Chen
分类: cs.CL
发布日期: 2024-10-01 (更新: 2025-11-07)
💡 一句话要点
LEME:面向眼科的开放大语言模型,具备高级推理能力和临床验证
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼科 大语言模型 指令微调 强化学习 临床验证 医疗AI 自然语言处理
📋 核心要点
- 现有眼科领域的大语言模型缺乏针对性训练和临床验证,难以满足实际临床需求。
- LEME通过指令微调和强化学习,提升模型在眼科领域的推理、准确性和信息量。
- LEME在多个临床任务上超越现有模型,并在真实患者数据上获得了临床医生的认可。
📝 摘要(中文)
眼科疾病日益普遍,对公共健康构成越来越大的负担。大语言模型(LLM)为减少文档工作量和支持临床决策提供了一条有希望的途径。然而,很少有模型专门为眼科定制,并且大多数评估主要集中于基于知识的问答,缺乏临床相关的基准或真实世界的验证。本文提出了LEME,一套开放权重的LLM,通过一个两阶段过程开发:(1)在来自临床指南、教科书和病例报告的20万个样本上进行指令微调,以增强推理和任务执行能力;(2)使用约3万个偏好标签进行强化学习,以提高准确性和信息量。LEME在五个精心策划的零样本基准上进行了评估,涵盖患者问答、咨询和治疗计划等任务。它优于所有七个基线(所有p < 0.004),超过GPT-4o 3.32%(绝对ROUGE-L增益)。它还使用去标识化的患者数据在三个下游任务上进行了评估,并由临床医生审查。在患者问答中,LEME在4个标准中的3个获得了主治临床医生的最高评分,事实性为4.67,特异性为4.77,完整性为4.79,安全性为4.88(1-5分制)。其完整性得分超过了专家撰写的答案(4.79 vs. 4.56;p = 0.015)。在视力提取中,LEME获得了最高的F1分数,优于LLaMA-3 14.1%,优于Eye-LLaMA 59.0%。在一项针对糖尿病视网膜病变、AMD和青光眼的评估和治疗计划的初步评估中,LEME在事实性方面获得了4.36分,特异性方面获得了4.55分,完整性方面获得了4.42分,安全性方面获得了4.36分,接近主治医师的水平。所有模型、数据和代码都将发布,以支持进一步的开发和临床转化,为提高效率和患者护理奠定基础。
🔬 方法详解
问题定义:现有的大语言模型在眼科领域的应用面临两个主要痛点:一是缺乏针对眼科知识的专门训练,导致在处理眼科相关问题时表现不佳;二是缺乏临床验证,难以评估模型在实际临床场景中的有效性和安全性。因此,需要开发一种专门为眼科定制,并经过临床验证的大语言模型。
核心思路:LEME的核心思路是通过两阶段训练方法,首先利用大量的眼科知识进行指令微调,增强模型在眼科领域的推理和任务执行能力;然后,利用强化学习,根据临床医生的偏好,进一步提高模型的准确性和信息量。这种方法旨在使模型不仅具备丰富的眼科知识,而且能够根据临床需求生成高质量的答案。
技术框架:LEME的整体框架包含两个主要阶段:指令微调阶段和强化学习阶段。在指令微调阶段,使用包含临床指南、教科书和病例报告的20万个样本对模型进行微调,使其能够理解和执行眼科相关的指令。在强化学习阶段,使用约3万个偏好标签,通过奖励模型来优化模型的输出,使其更符合临床医生的期望。
关键创新:LEME最重要的创新点在于其针对眼科领域的定制化训练和临床验证。通过指令微调和强化学习,LEME能够更好地理解和处理眼科相关问题,并在真实患者数据上获得了临床医生的认可。此外,LEME还提供了开放的模型权重、数据和代码,为进一步的开发和临床转化奠定了基础。
关键设计:在指令微调阶段,采用了多种数据增强技术,以提高模型的泛化能力。在强化学习阶段,设计了一个奖励模型,用于评估模型输出的质量,并根据评估结果来调整模型的参数。此外,还采用了多种正则化技术,以防止模型过拟合。
📊 实验亮点
LEME在多个眼科任务上表现出色。在零样本基准测试中,LEME超越GPT-4o 3.32%(ROUGE-L)。在患者问答中,LEME获得了临床医生的高度评价,完整性得分甚至超过了专家撰写的答案(4.79 vs. 4.56;p = 0.015)。在视力提取任务中,LEME的F1分数优于LLaMA-3 14.1%,优于Eye-LLaMA 59.0%。
🎯 应用场景
LEME在眼科领域具有广泛的应用前景,可用于辅助临床决策、减少医生文档工作量、提供患者教育和支持远程医疗。通过提供准确、完整和安全的眼科信息,LEME有望提高医疗效率和患者护理质量,尤其是在资源有限的地区。
📄 摘要(原文)
The rising prevalence of eye diseases poses a growing public health burden. Large language models (LLMs) offer a promising path to reduce documentation workload and support clinical decision-making. However, few have been tailored for ophthalmology, and most evaluations focus mainly on knowledge-based QA without clinically relevant benchmarks or real-world validation. Here, we present LEME, a suite of open-weight LLMs developed through a two-stage process: (1) instruction tuning on 200,000 samples from clinical guidelines, textbooks, and case reports to enhance reasoning and task-following, and (2) reinforcement learning with ~30,000 preference labels to enhance accuracy and informativeness. LEME was evaluated on five curated zero-shot benchmarks spanning tasks such as patient QA, consultation, and treatment planning. It outperformed all seven baselines (all p < 0.004), exceeding GPT-4o by 3.32% (absolute ROUGE-L gain). It was further evaluated on three downstream tasks using deidentified patient data, reviewed by clinicians. In patient QA, LEME received the highest ratings from attending clinicians in 3 out of 4 criteria, with scores of 4.67 for factuality, 4.77 for specificity, 4.79 for completeness, and 4.88 for safety (1-5 scale). Its completeness score surpassed that of expert-written answers (4.79 vs. 4.56; p = 0.015). In visual acuity extraction, LEME achieved the highest F1, outperforming LLaMA-3 by 14.1% and Eye-LLaMA by 59.0%. In a pilot evaluation on assessment and treatment planning for diabetic retinopathy, AMD, and glaucoma, LEME received scores of 4.36 for factuality, 4.55 for specificity, 4.42 for completeness, and 4.36 for safety, approaching attending-level performance. All models, data, and code will be released to support further development and clinical translation, laying the groundwork for improved efficiency and patient care