Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators

📄 arXiv: 2411.05897v2 📥 PDF

作者: Nicholas Wan, Qiao Jin, Joey Chan, Guangzhi Xiong, Serina Applebaum, Aidan Gilson, Reid McMurry, R. Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu

分类: cs.CL, cs.AI, cs.HC

发布日期: 2024-11-08 (更新: 2025-03-21)

备注: 10 pages, 3 figures, 2 tables


💡 一句话要点

评估大型语言模型在临床决策支持中的应用:以医学计算器选择为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床决策支持 医学计算器 模型评估 误差分析

📋 核心要点

  1. 现有大型语言模型在医学知识方面通过了执照考试,但在临床决策支持,如医学计算器选择方面的能力尚不明确。
  2. 该研究通过对比LLM与人类在医学计算器选择任务上的表现,评估LLM在临床决策支持方面的能力。
  3. 实验结果表明,即使是性能最佳的LLM在理解和计算器知识方面仍存在不足,在医学计算器推荐方面不如人类。

📝 摘要(中文)

本文评估了大型语言模型(LLM)在临床决策支持方面的能力,特别是选择医学计算器的能力。研究测试了九个LLM,包括开源、专有和领域特定的模型,使用了来自35个临床计算器的1009个多项选择题。在包含100个问题的子集上,性能最佳的LLM(OpenAI o1)的答案准确率为66.0%(CI: 56.7-75.3%),但仍低于人类标注者(平均准确率为79.5%,CI: 73.5-85.0%)。此外,研究还评估了医学实习生和LLM在推荐医学计算器方面的表现。误差分析表明,即使是性能最佳的LLM在理解(49.3%的错误)和计算器知识(7.1%的错误)方面仍然存在不足。研究结果表明,LLM在医学计算器推荐方面并不优于人类。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在临床决策支持中的能力,具体任务是医学计算器的选择和推荐。现有方法,即直接使用LLM,在理解临床场景和医学计算器知识方面存在不足,导致推荐结果不准确。

核心思路:论文的核心思路是通过构建一个包含多项选择题和临床场景的数据集,对比LLM和人类专家在医学计算器选择和推荐任务上的表现,从而评估LLM的临床决策支持能力。通过误差分析,进一步了解LLM的不足之处。

技术框架:整体框架包括以下几个阶段:1) 构建包含多项选择题和临床场景的数据集;2) 选择并配置不同的LLM模型(包括开源、专有和领域特定模型);3) 对LLM和人类专家进行评估,比较其在医学计算器选择和推荐任务上的准确率;4) 对LLM的错误进行分析,识别其在理解和知识方面的不足。

关键创新:该研究的关键创新在于:1) 系统性地评估了多种LLM在临床决策支持任务中的表现,而不仅仅是通用医学知识;2) 构建了一个专门用于评估医学计算器选择和推荐的数据集;3) 通过误差分析,深入了解了LLM在临床决策支持方面的局限性。

关键设计:研究使用了1009个多项选择题,涵盖35个临床计算器。评估指标为答案准确率。误差分析将错误分为理解错误和计算器知识错误。选择了九个LLM模型,包括OpenAI o1等。人类专家包括医学实习生。

📊 实验亮点

研究表明,性能最佳的LLM(OpenAI o1)在医学计算器选择任务上的准确率为66.0%(CI: 56.7-75.3%),低于人类标注者的79.5%(CI: 73.5-85.0%)。误差分析显示,LLM的主要错误来源是理解错误(49.3%)和计算器知识错误(7.1%)。这些结果表明,LLM在临床决策支持方面仍有很大的提升空间。

🎯 应用场景

该研究结果可用于指导LLM在临床决策支持系统中的应用。通过了解LLM的优势和局限性,可以更好地设计人机协作的临床决策支持系统,提高医疗决策的质量和效率。未来的研究可以探索如何利用LLM辅助医学教育和培训。

📄 摘要(原文)

Although large language models (LLMs) have been assessed for general medical knowledge using licensing exams, their ability to support clinical decision-making, such as selecting medical calculators, remains uncertain. We assessed nine LLMs, including open-source, proprietary, and domain-specific models, with 1,009 multiple-choice question-answer pairs across 35 clinical calculators and compared LLMs to humans on a subset of questions. While the highest-performing LLM, OpenAI o1, provided an answer accuracy of 66.0% (CI: 56.7-75.3%) on the subset of 100 questions, two human annotators nominally outperformed LLMs with an average answer accuracy of 79.5% (CI: 73.5-85.0%). Ultimately, we evaluated medical trainees and LLMs in recommending medical calculators across clinical scenarios like risk stratification and diagnosis. With error analysis showing that the highest-performing LLMs continue to make mistakes in comprehension (49.3% of errors) and calculator knowledge (7.1% of errors), our findings highlight that LLMs are not superior to humans in calculator recommendation.