Comparisons between a Large Language Model-based Real-Time Compound Diagnostic Medical AI Interface and Physicians for Common Internal Medicine Cases using Simulated Patients
作者: Hyungjun Park, Chang-Yun Woo, Seungjo Lim, Seunghwan Lim, Keunho Kwak, Ju Young Jeong, Chong Hyun Suh
分类: cs.AI, cs.CL
发布日期: 2025-05-27
💡 一句话要点
基于大型语言模型的实时复合诊断医疗AI在内科常见病例中表现优于医生
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医疗AI 诊断系统 临床试验 内科
📋 核心要点
- 现有内科诊断依赖医生经验,效率和准确性受限,且成本较高,难以满足日益增长的医疗需求。
- 论文提出一种基于大型语言模型的实时复合诊断医疗AI界面,旨在辅助医生进行更快速、准确的诊断。
- 实验结果表明,该AI界面在诊断准确性、时间和成本方面均优于医生,患者满意度也与之相当。
📝 摘要(中文)
本研究旨在开发一种基于大型语言模型的实时复合诊断医疗AI界面,并通过临床试验将其与医生在常见内科病例中的表现进行比较,病例基于美国医师执照考试(USMLE)第二步临床技能(CS)风格的考试。于2024年8月20日进行了一项非随机临床试验,招募了一名全科医生、两名内科住院医师(第二年和第三年)以及五名模拟患者。临床病例改编自USMLE Step 2 CS风格的考试。基于实际患者开发了10个具有代表性的内科病例,并纳入了初步诊断评估中可用的信息。主要结果是首次鉴别诊断的准确性。重复性基于一致性比例进行评估。结果表明,医生的首次鉴别诊断准确率在50%到70%之间,而实时复合诊断医疗AI界面的准确率达到了80%。首次鉴别诊断的一致性比例为0.7。医生首次和第二次鉴别诊断的准确率在70%到90%之间,而AI界面的准确率达到了100%。AI界面的平均时间(557秒)比医生(1006秒)缩短了44.6%。与医生的平均成本(4.2美元)相比,AI界面(0.08美元)也降低了98.1%的成本。患者对医生护理的满意度评分为4.2到4.3,而对AI界面的满意度评分为3.9。结论表明,基于LLM的实时复合诊断医疗AI界面在诊断准确性和患者满意度方面与医生相当,同时所需时间和成本更低。这些发现表明,AI界面可能具有辅助常见内科病例初级保健咨询的潜力。
🔬 方法详解
问题定义:论文旨在解决内科常见疾病诊断中医生效率低、成本高、诊断准确率受经验影响等问题。现有方法依赖医生个人经验,诊断过程耗时且易出错,尤其是在初级保健咨询中,这些问题尤为突出。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理和知识推理能力,构建一个能够实时分析患者信息并给出诊断建议的AI界面。通过模拟医生诊断流程,AI能够综合考虑患者病史、症状等信息,提供更准确、高效的诊断结果。
技术框架:该AI系统的整体架构包含以下几个主要模块:1) 数据输入模块:负责接收患者的病史、症状等信息,这些信息可以通过文本或语音输入;2) LLM处理模块:使用预训练的大型语言模型对输入信息进行分析和理解,提取关键特征;3) 诊断推理模块:基于LLM的分析结果,结合医学知识库进行推理,生成可能的诊断结果列表;4) 结果输出模块:将诊断结果以易于理解的方式呈现给医生或患者。
关键创新:该研究的关键创新在于将大型语言模型应用于实时复合诊断,并构建了一个完整的AI界面。与以往的基于规则或传统机器学习的诊断系统相比,该方法能够更好地理解和处理复杂的医学信息,并提供更准确的诊断建议。此外,该系统还考虑了成本和时间效率,使其更具实用价值。
关键设计:论文中未详细描述LLM的具体选择、训练方式以及医学知识库的构建细节,这些是影响系统性能的关键设计因素。此外,如何平衡诊断准确性和患者满意度也是一个重要的设计考量。损失函数和网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该AI界面在首次鉴别诊断的准确率达到80%,高于医生的50%-70%。AI界面完成诊断的平均时间为557秒,比医生缩短了44.6%。此外,AI界面的诊断成本仅为0.08美元,远低于医生的4.2美元。虽然患者对AI界面的满意度略低于医生,但仍达到了3.9分。
🎯 应用场景
该研究成果可应用于初级保健咨询、远程医疗、医学教育等领域。该AI界面能够辅助医生进行诊断,提高诊断效率和准确性,降低医疗成本,并为患者提供更便捷的医疗服务。未来,该技术有望进一步发展,成为医生诊断的重要辅助工具,甚至在某些情况下可以替代医生进行初步诊断。
📄 摘要(原文)
Objective To develop an LLM based realtime compound diagnostic medical AI interface and performed a clinical trial comparing this interface and physicians for common internal medicine cases based on the United States Medical License Exam (USMLE) Step 2 Clinical Skill (CS) style exams. Methods A nonrandomized clinical trial was conducted on August 20, 2024. We recruited one general physician, two internal medicine residents (2nd and 3rd year), and five simulated patients. The clinical vignettes were adapted from the USMLE Step 2 CS style exams. We developed 10 representative internal medicine cases based on actual patients and included information available on initial diagnostic evaluation. Primary outcome was the accuracy of the first differential diagnosis. Repeatability was evaluated based on the proportion of agreement. Results The accuracy of the physicians' first differential diagnosis ranged from 50% to 70%, whereas the realtime compound diagnostic medical AI interface achieved an accuracy of 80%. The proportion of agreement for the first differential diagnosis was 0.7. The accuracy of the first and second differential diagnoses ranged from 70% to 90% for physicians, whereas the AI interface achieved an accuracy rate of 100%. The average time for the AI interface (557 sec) was 44.6% shorter than that of the physicians (1006 sec). The AI interface ($0.08) also reduced costs by 98.1% compared to the physicians' average ($4.2). Patient satisfaction scores ranged from 4.2 to 4.3 for care by physicians and were 3.9 for the AI interface Conclusion An LLM based realtime compound diagnostic medical AI interface demonstrated diagnostic accuracy and patient satisfaction comparable to those of a physician, while requiring less time and lower costs. These findings suggest that AI interfaces may have the potential to assist primary care consultations for common internal medicine cases.