Superhuman performance of a large language model on the reasoning tasks of a physician

📄 arXiv: 2412.10849v3 📥 PDF

作者: Peter G. Brodeur, Thomas A. Buckley, Zahir Kanjee, Ethan Goh, Evelyn Bin Ling, Priyank Jain, Stephanie Cabral, Raja-Elie Abdulnour, Adrian D. Haimovich, Jason A. Freed, Andrew Olson, Daniel J. Morgan, Jason Hom, Robert Gallo, Liam G. McCoy, Haadi Mombini, Christopher Lucas, Misha Fotoohi, Matthew Gwiazdon, Daniele Restifo, Daniel Restrepo, Eric Horvitz, Jonathan Chen, Arjun K. Manrai, Adam Rodman

分类: cs.AI, cs.CL

发布日期: 2024-12-14 (更新: 2025-06-02)


💡 一句话要点

大型语言模型在医师推理任务中表现出超越人类的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床决策支持 医学诊断 推理能力 自然语言处理

📋 核心要点

  1. 临床诊断推理是评估医学计算系统的黄金标准,但现有系统在复杂病例中表现不足。
  2. 利用大型语言模型(LLM)强大的推理能力,模拟医师的诊断和管理过程,提供更准确的临床决策支持。
  3. 实验表明,LLM在临床案例和急诊室第二意见中均超越人类医师,并在诊断和推理能力上持续提升。

📝 摘要(中文)

本文评估了一个大型语言模型(LLM)在具有挑战性的临床病例上的表现,并将其与数百名医师的基线进行比较。我们进行了五项实验,以衡量临床推理能力,包括鉴别诊断生成、诊断推理展示、鉴别诊断分诊、概率推理和管理推理,所有这些都由经过验证的心理测量学的医师专家进行裁决。此外,我们进行了一项真实世界的研究,比较了在马萨诸塞州波士顿一家大型三级学术医疗中心的急诊室中随机选择的患者中,人类专家和AI第二意见。我们比较了LLM和经过委员会认证的医师在三个预定义的诊断接触点上的表现:急诊室的分诊、医师的初步评估以及入院到医院或重症监护室。在所有实验中,无论是临床案例还是急诊室第二意见,LLM都表现出超越人类的诊断和推理能力,并且相对于先前几代AI临床决策支持系统,性能持续提高。我们的研究表明,LLM在一般医学诊断和管理推理方面已经实现了超越人类的性能,实现了Ledley和Lusted提出的愿景,并激发了对前瞻性试验的迫切需求。

🔬 方法详解

问题定义:论文旨在解决医学诊断和管理推理中,现有临床决策支持系统能力不足的问题。现有方法在处理复杂临床病例时,往往难以提供准确、全面的诊断和管理建议,导致医师负担加重,患者诊疗效率降低。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的自然语言处理和推理能力,模拟医师的诊断思维过程。通过让LLM学习大量的医学知识和临床案例,使其能够像医师一样进行鉴别诊断、概率推理和管理决策。这种方法旨在提供更准确、高效的临床决策支持,辅助医师进行诊断和治疗。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据准备:收集大量的医学文献、临床指南和病例数据,用于训练LLM。2) 模型训练:使用收集到的数据对LLM进行训练,使其具备医学知识和推理能力。3) 临床实验:设计一系列临床实验,包括鉴别诊断生成、诊断推理展示、鉴别诊断分诊、概率推理和管理推理,评估LLM的性能。4) 真实世界研究:在急诊室中随机选择患者,比较LLM和医师的第二意见,评估LLM在实际临床环境中的应用效果。

关键创新:论文最重要的技术创新点在于将大型语言模型应用于医学诊断和管理推理,并证明了其在某些任务上可以超越人类医师的性能。与传统的基于规则或统计的临床决策支持系统相比,LLM具有更强的学习能力和泛化能力,能够处理更复杂、更模糊的临床情况。

关键设计:论文中没有详细描述LLM的具体参数设置、损失函数或网络结构。但是,可以推断,研究人员可能使用了预训练的LLM,并在医学数据上进行了微调。此外,为了评估LLM的性能,研究人员设计了一系列临床实验,并使用了经过验证的心理测量学方法来评估医师专家的意见。

📊 实验亮点

实验结果表明,LLM在所有实验中均表现出超越人类的诊断和推理能力。在急诊室第二意见研究中,LLM在三个预定义的诊断接触点上均优于委员会认证的医师。此外,LLM的性能相对于先前几代AI临床决策支持系统持续提高,证明了大型语言模型在医学领域的巨大潜力。

🎯 应用场景

该研究成果具有广泛的应用前景,可用于开发智能临床决策支持系统,辅助医师进行诊断、治疗和管理。尤其在资源匮乏地区或紧急情况下,LLM可以提供快速、准确的第二意见,提高医疗服务质量和效率。未来,该技术有望应用于远程医疗、患者自我管理等领域,实现更智能化的医疗服务。

📄 摘要(原文)

A seminal paper published by Ledley and Lusted in 1959 introduced complex clinical diagnostic reasoning cases as the gold standard for the evaluation of expert medical computing systems, a standard that has held ever since. Here, we report the results of a physician evaluation of a large language model (LLM) on challenging clinical cases against a baseline of hundreds of physicians. We conduct five experiments to measure clinical reasoning across differential diagnosis generation, display of diagnostic reasoning, triage differential diagnosis, probabilistic reasoning, and management reasoning, all adjudicated by physician experts with validated psychometrics. We then report a real-world study comparing human expert and AI second opinions in randomly-selected patients in the emergency room of a major tertiary academic medical center in Boston, MA. We compared LLMs and board-certified physicians at three predefined diagnostic touchpoints: triage in the emergency room, initial evaluation by a physician, and admission to the hospital or intensive care unit. In all experiments--both vignettes and emergency room second opinions--the LLM displayed superhuman diagnostic and reasoning abilities, as well as continued improvement from prior generations of AI clinical decision support. Our study suggests that LLMs have achieved superhuman performance on general medical diagnostic and management reasoning, fulfilling the vision put forth by Ledley and Lusted, and motivating the urgent need for prospective trials.