Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items

📄 arXiv: 2504.11186v1 📥 PDF

作者: Minjie Zou, Sahana Srinivasan, Thaddaeus Wai Soon Lo, Ke Zou, Gabriel Dawei Yang, Xuguang Ai, Hyunjae Kim, Maxwell Singer, Fares Antaki, Kelvin Li, Robert Chang, Marcus Tan, David Ziyou Chen, Dianbo Liu, Qingyu Chen, Yih Chung Tham

分类: cs.CL, cs.AI

发布日期: 2025-04-15

备注: 83 pages, 6 figures, 3 tables, 9 supplementary figures, 7 supplementary tables


💡 一句话要点

眼科领域推理型大语言模型基准测试:5888项的对比评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 眼科 推理能力 基准测试 医学人工智能

📋 核心要点

  1. 医学领域,尤其是眼科,需要复杂的决策,但现有通用大语言模型在此专业领域的表现尚不明确。
  2. 本研究对比评估了DeepSeek-R1、OpenAI o1/o3-mini和Gemini 2.0 Flash-Thinking四种推理型LLM在眼科问答上的性能。
  3. 实验结果表明,O1和DeepSeek-R1在准确率上表现最佳,而不同模型在推理速度和文本生成质量上各有优劣。

📝 摘要(中文)

本研究全面评估并比较了四种新开发的、侧重于推理的大语言模型(LLM)在眼科领域的准确性和推理能力,这些模型包括DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking。研究使用了来自MedMCQA数据集的5888道多项选择眼科考试题,并在零样本设置下对每个模型进行了评估。定量评估指标包括准确率、宏平均F1值以及五个文本生成指标(ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore),这些指标是针对真实推理计算的。记录了100个随机选择问题的平均推理时间。此外,两位具有委员会认证的眼科医生对鉴别诊断问题回答的清晰度、完整性和推理结构进行了定性评估。O1(0.902)和DeepSeek-R1(0.888)获得了最高的准确率,其中o1在宏平均F1值方面也处于领先地位(0.900)。模型在文本生成指标方面的表现各不相同。推理时间因模型而异,DeepSeek-R1最慢(40.4秒),Gemini 2.0 Flash-Thinking最快(6.7秒)。定性评估显示,DeepSeek-R1和Gemini 2.0 Flash-Thinking倾向于提供详细而全面的中间推理,而o1和o3-mini则显示出简洁的理由。

🔬 方法详解

问题定义:论文旨在评估和比较多个先进的、侧重于推理的大语言模型在解决眼科领域复杂问题时的性能。现有的大语言模型虽然在通用任务上表现出色,但在专业性强的医学领域,尤其是在需要深入推理和专业知识的眼科领域,其性能尚未得到充分的探索和验证。因此,论文要解决的问题是:这些新型推理型大语言模型在眼科领域的表现如何?它们在准确性、推理能力和效率方面有何差异?

核心思路:论文的核心思路是通过构建一个全面的基准测试,利用大量的眼科考试题(MedMCQA数据集),在零样本设置下对多个大语言模型进行定量和定性评估。通过对比不同模型在各项指标上的表现,揭示它们在眼科领域的优势和不足,为未来开发更适用于医学领域的大语言模型提供参考。

技术框架:整体框架包括以下几个主要阶段:1) 数据准备:从MedMCQA数据集中选取5888道多项选择眼科考试题。2) 模型选择:选择DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking四个模型。3) 零样本推理:在零样本设置下,让模型回答问题并生成推理过程。4) 定量评估:使用准确率、宏平均F1值、ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore等指标评估模型的性能。5) 定性评估:由两位眼科医生评估模型生成的推理过程的清晰度、完整性和推理结构。

关键创新:该研究的关键创新在于:1) 首次对多个新型推理型大语言模型在眼科领域的性能进行了全面的基准测试。2) 采用了多种定量和定性评估指标,从不同角度评估模型的性能。3) 提供了关于不同模型在推理速度、文本生成质量和推理风格方面的详细比较,为用户选择合适的模型提供了依据。与现有方法相比,该研究更加系统和全面,能够更准确地反映模型在眼科领域的实际表现。

关键设计:在评估过程中,采用了零样本设置,以模拟模型在没有特定领域训练数据的情况下解决问题的能力。使用了MedMCQA数据集,该数据集包含了大量的眼科考试题,能够全面评估模型在不同类型的眼科问题上的表现。在定量评估中,使用了多种文本生成指标,以评估模型生成的推理过程的质量。在定性评估中,邀请了两位眼科医生参与评估,以确保评估结果的专业性和可靠性。

📊 实验亮点

实验结果表明,OpenAI的o1模型在准确率(0.902)和宏平均F1值(0.900)上表现最佳,DeepSeek-R1紧随其后(准确率0.888)。Gemini 2.0 Flash-Thinking在推理速度上具有明显优势(6.7秒),但DeepSeek-R1和Gemini 2.0 Flash-Thinking倾向于提供更详细的推理过程。这些结果为选择适合特定眼科任务的大语言模型提供了重要参考。

🎯 应用场景

该研究成果可应用于辅助眼科医生进行诊断和治疗决策,提高医疗效率和准确性。通过集成到医疗信息系统中,这些模型可以为医生提供实时的、基于证据的建议,尤其是在处理复杂病例或资源有限的地区。未来,这些模型有望发展成为个性化的医疗助手,根据患者的具体情况提供定制化的治疗方案。

📄 摘要(原文)

Recent advances in reasoning-focused large language models (LLMs) mark a shift from general LLMs toward models designed for complex decision-making, a crucial aspect in medicine. However, their performance in specialized domains like ophthalmology remains underexplored. This study comprehensively evaluated and compared the accuracy and reasoning capabilities of four newly developed reasoning-focused LLMs, namely DeepSeek-R1, OpenAI o1, o3-mini, and Gemini 2.0 Flash-Thinking. Each model was assessed using 5,888 multiple-choice ophthalmology exam questions from the MedMCQA dataset in zero-shot setting. Quantitative evaluation included accuracy, Macro-F1, and five text-generation metrics (ROUGE-L, METEOR, BERTScore, BARTScore, and AlignScore), computed against ground-truth reasonings. Average inference time was recorded for a subset of 100 randomly selected questions. Additionally, two board-certified ophthalmologists qualitatively assessed clarity, completeness, and reasoning structure of responses to differential diagnosis questions.O1 (0.902) and DeepSeek-R1 (0.888) achieved the highest accuracy, with o1 also leading in Macro-F1 (0.900). The performance of models across the text-generation metrics varied: O3-mini excelled in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini tied for BERTScore (0.673), DeepSeek-R1 (-4.105) and Gemini 2.0 Flash-Thinking (-4.127) performed best in BARTScore, while o3-mini (0.181) and o1 (0.176) led AlignScore. Inference time across the models varied, with DeepSeek-R1 being slowest (40.4 seconds) and Gemini 2.0 Flash-Thinking fastest (6.7 seconds). Qualitative evaluation revealed that DeepSeek-R1 and Gemini 2.0 Flash-Thinking tended to provide detailed and comprehensive intermediate reasoning, whereas o1 and o3-mini displayed concise and summarized justifications.