Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study

作者: Sahana Srinivasan, Xuguang Ai, Minjie Zou, Ke Zou, Hyunjae Kim, Thaddaeus Wai Soon Lo, Krithi Pushpanathan, Yiming Kong, Anran Li, Maxwell Singer, Kai Jin, Fares Antaki, David Ziyou Chen, Dianbo Liu, Ron A. Adelman, Qingyu Chen, Yih Chung Tham

分类: cs.CL, cs.AI

发布日期: 2025-01-20

备注: 44 pages

💡 一句话要点

OpenAI o1在眼科问答中表现评估：一项基于6990个问题的对比研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 眼科 大型语言模型 问答系统 OpenAI o1 医学人工智能

📋 核心要点

现有大型语言模型在眼科领域的推理能力有待提升，缺乏针对性的优化。
本研究对比OpenAI o1等模型在眼科问答数据集上的表现，评估其领域适应性。
实验结果表明，o1在准确率和F1值上表现优异，但在推理能力上仍有提升空间。

📝 摘要（中文）

本研究旨在评估OpenAI o1在解决眼科特定问题方面的性能和推理能力，并与其他大型语言模型进行比较。研究使用了来自MedMCQA的6990个眼科问题。结果表明，o1取得了最高的准确率（0.88）和宏平均F1分数，但在基于文本生成指标的推理能力方面排名第三。在各个子主题中，o1在“晶状体”和“青光眼”方面排名第一，但在“角膜和外部疾病”、“玻璃体和视网膜”以及“眼整形和眼眶疾病”方面排名第二，仅次于GPT-4o。亚组分析显示，o1在具有较长ground truth解释的查询上表现更好。研究表明，O1的推理增强可能并未完全扩展到眼科领域，强调了在眼科等专业领域优化性能需要进行领域特定的改进。

🔬 方法详解

问题定义：本研究旨在评估OpenAI o1在眼科领域的问答能力，并将其与其他大型语言模型进行比较。现有通用大型语言模型在处理专业性强的眼科问题时，可能由于缺乏领域知识和推理能力而表现不佳，难以满足临床需求。因此，需要对这些模型在眼科领域的性能进行深入评估，并探索领域特定的优化方法。

核心思路：本研究的核心思路是通过构建一个大规模的眼科问答数据集，并采用多种评估指标，对OpenAI o1和其他大型语言模型进行全面评估。通过分析模型在不同子领域的表现，以及在不同类型问题上的优劣势，从而深入了解其在眼科领域的推理能力和局限性。

技术框架：本研究的技术框架主要包括以下几个步骤：1) 数据集构建：使用MedMCQA数据集，该数据集包含6990个眼科相关问题。2) 模型选择：选择OpenAI o1以及其他五个具有代表性的大型语言模型作为评估对象。3) 评估指标：采用准确率、宏平均F1分数等指标评估模型的整体性能，并使用文本生成指标评估模型的推理能力。4) 子领域分析：将问题按照眼科的不同子领域进行划分，分析模型在各个子领域的表现。5) 亚组分析：分析模型在不同类型问题上的表现，例如具有不同长度ground truth解释的问题。

关键创新：本研究的关键创新在于：1) 对OpenAI o1在眼科领域的问答能力进行了全面评估，填补了相关研究的空白。2) 构建了一个大规模的眼科问答数据集，为后续研究提供了数据基础。3) 采用多种评估指标，从不同角度评估了模型的性能，从而更全面地了解了模型的优劣势。

关键设计：本研究的关键设计包括：1) 数据集的选择：选择MedMCQA数据集，该数据集具有高质量的眼科问题，并且已经被广泛应用于医学问答领域。2) 评估指标的选择：采用准确率、宏平均F1分数等指标，这些指标能够有效评估模型的整体性能。同时，采用文本生成指标，评估模型的推理能力。3) 子领域划分：按照眼科的不同子领域进行划分，例如晶状体、青光眼、角膜和外部疾病等，从而能够更深入地了解模型在各个子领域的表现。

📊 实验亮点

OpenAI o1在眼科问答数据集上取得了0.88的最高准确率和宏平均F1分数，超过了其他五个大型语言模型。在“晶状体”和“青光眼”子领域，o1的表现最佳。亚组分析表明，o1在具有较长ground truth解释的查询上表现更好，这表明其在处理复杂问题时具有一定的优势。然而，在推理能力方面，o1排名第三，表明其在眼科领域的推理能力仍有提升空间。

🎯 应用场景

该研究成果可应用于开发眼科辅助诊断系统、医学知识问答机器人等。通过对大型语言模型进行领域特定优化，可以提高其在眼科领域的应用价值，为医生提供更准确、更高效的辅助工具，从而改善患者的诊疗体验。未来，该研究还可以扩展到其他医学领域，推动人工智能在医疗健康领域的广泛应用。

📄 摘要（原文）

Question: What is the performance and reasoning ability of OpenAI o1 compared to other large language models in addressing ophthalmology-specific questions? Findings: This study evaluated OpenAI o1 and five LLMs using 6,990 ophthalmological questions from MedMCQA. O1 achieved the highest accuracy (0.88) and macro-F1 score but ranked third in reasoning capabilities based on text-generation metrics. Across subtopics, o1 ranked first in Lens'' andGlaucoma'' but second to GPT-4o in Corneal and External Diseases'',Vitreous and Retina'' and ``Oculoplastic and Orbital Diseases''. Subgroup analyses showed o1 performed better on queries with longer ground truth explanations. Meaning: O1's reasoning enhancements may not fully extend to ophthalmology, underscoring the need for domain-specific refinements to optimize performance in specialized fields like ophthalmology.

Can OpenAI o1 Reason Well in Ophthalmology? A 6,990-Question Head-to-Head Evaluation Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理