Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation
作者: Ting Fang Tan, Kabilan Elangovan, Andreas Pollreisz, Kevin Bryan Dy, Wei Yan Ng, Joy Le Yi Wong, Jin Liyuan, Chrystie Quek Wan Ning, Ashley Shuen Ying Hong, Arun James Thirunavukarasu, Shelley Yin-His Chang, Jie Yao, Dylan Hong, Wang Zhaoran, Amrita Gupta, Daniel SW Ting
分类: cs.AI
发布日期: 2026-02-05
💡 一句话要点
评估医学大语言模型在眼科患者咨询中的表现,并验证基于LLM的评估方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学大语言模型 眼科 患者咨询 LLM评估 S.C.O.R.E.框架
📋 核心要点
- 眼科领域缺乏对小型医学LLM在患者咨询场景下的系统评估,尤其是在安全性和准确性方面。
- 研究采用S.C.O.R.E.框架,结合临床医生和GPT-4-Turbo的评估,对四个LLM的回复进行全面评估。
- 实验结果表明,Meerkat-7B表现最佳,但MedLLaMA3-v20存在较多问题,同时验证了LLM评估的可行性。
📝 摘要(中文)
本研究评估了四种小型医学大语言模型(LLM):Meerkat-7B、BioMistral-7B、OpenBioLLM-8B和MedLLaMA3-v20在回答眼科相关患者咨询方面的表现,并评估了基于LLM的评估方法相对于临床医生评估的可行性。在这项横断面研究中,每个模型回答了180个眼科患者咨询,共生成2160个回复。选择参数规模小于100亿的模型是为了实现资源高效部署。回复由三位不同资历的眼科医生和GPT-4-Turbo使用S.C.O.R.E.框架进行评估,该框架评估安全性、共识和背景、客观性、可重复性和可解释性,评分采用五点Likert量表。使用Spearman等级相关、Kendall tau统计和核密度估计分析评估了LLM和临床医生评分之间的一致性。Meerkat-7B表现最佳,来自高级顾问、顾问和住院医师的平均得分分别为3.44、4.08和4.18。MedLLaMA3-v20表现最差,25.5%的回复包含幻觉或具有临床误导性的内容,包括捏造的术语。GPT-4-Turbo的评分与临床医生的评估总体上显示出很强的一致性,Spearman rho为0.80,Kendall tau为0.67,但高级顾问的评分更为保守。总体而言,医学LLM在安全回答眼科问题方面显示出潜力,但在临床深度和共识方面仍存在差距,这支持了基于LLM的评估方法在大规模基准测试中的可行性,以及需要混合自动化和临床医生审查框架来指导安全临床部署。
🔬 方法详解
问题定义:论文旨在评估小型医学大语言模型(LLM)在回答眼科患者咨询时的表现,并验证使用LLM进行自动评估的可行性。现有方法依赖人工评估,成本高昂且难以规模化。同时,缺乏对这些模型在眼科特定领域的安全性和准确性的系统评估。
核心思路:论文的核心思路是使用S.C.O.R.E.框架(安全性、共识和背景、客观性、可重复性和可解释性)对LLM的回复进行多维度评估。同时,将GPT-4-Turbo的评估结果与临床医生的评估结果进行对比,以验证LLM评估的有效性。通过这种方式,可以降低评估成本,并为大规模基准测试提供支持。
技术框架:整体流程包括:1) 收集眼科患者咨询;2) 使用四个小型医学LLM(Meerkat-7B、BioMistral-7B、OpenBioLLM-8B和MedLLaMA3-v20)生成回复;3) 由三位不同资历的眼科医生和GPT-4-Turbo使用S.C.O.R.E.框架对回复进行评分;4) 使用Spearman等级相关、Kendall tau统计和核密度估计分析评估LLM和临床医生评分之间的一致性。
关键创新:论文的关键创新在于:1) 系统地评估了小型医学LLM在眼科患者咨询场景下的表现;2) 验证了使用LLM进行自动评估的可行性,为大规模基准测试提供了新的方法;3) 提出了混合自动化和临床医生审查框架,以指导安全临床部署。
关键设计:S.C.O.R.E.框架是评估的关键。该框架包含五个维度:安全性、共识和背景、客观性、可重复性和可解释性。每个维度使用五点Likert量表进行评分。此外,研究使用了Spearman等级相关和Kendall tau统计来评估LLM和临床医生评分之间的一致性。选择参数规模小于100亿的模型是为了实现资源高效部署。
📊 实验亮点
Meerkat-7B在所有模型中表现最佳,高级顾问、顾问和住院医师的平均得分分别为3.44、4.08和4.18。GPT-4-Turbo的评分与临床医生的评估总体上显示出很强的一致性,Spearman rho为0.80,Kendall tau为0.67。MedLLaMA3-v20表现最差,25.5%的回复包含幻觉或具有临床误导性的内容。
🎯 应用场景
该研究成果可应用于开发智能眼科咨询助手,辅助医生进行初步诊断和患者教育。通过LLM自动评估,可以快速筛选出高质量的回复,提高医疗服务的效率和可及性。未来,可将该方法推广到其他医学领域,构建更安全、可靠的医疗AI系统。
📄 摘要(原文)
Domain specific large language models are increasingly used to support patient education, triage, and clinical decision making in ophthalmology, making rigorous evaluation essential to ensure safety and accuracy. This study evaluated four small medical LLMs Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, and MedLLaMA3-v20 in answering ophthalmology related patient queries and assessed the feasibility of LLM based evaluation against clinician grading. In this cross sectional study, 180 ophthalmology patient queries were answered by each model, generating 2160 responses. Models were selected for parameter sizes under 10 billion to enable resource efficient deployment. Responses were evaluated by three ophthalmologists of differing seniority and by GPT-4-Turbo using the S.C.O.R.E. framework assessing safety, consensus and context, objectivity, reproducibility, and explainability, with ratings assigned on a five point Likert scale. Agreement between LLM and clinician grading was assessed using Spearman rank correlation, Kendall tau statistics, and kernel density estimate analyses. Meerkat-7B achieved the highest performance with mean scores of 3.44 from Senior Consultants, 4.08 from Consultants, and 4.18 from Residents. MedLLaMA3-v20 performed poorest, with 25.5 percent of responses containing hallucinations or clinically misleading content, including fabricated terminology. GPT-4-Turbo grading showed strong alignment with clinician assessments overall, with Spearman rho of 0.80 and Kendall tau of 0.67, though Senior Consultants graded more conservatively. Overall, medical LLMs demonstrated potential for safe ophthalmic question answering, but gaps remained in clinical depth and consensus, supporting the feasibility of LLM based evaluation for large scale benchmarking and the need for hybrid automated and clinician review frameworks to guide safe clinical deployment.