Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes

📄 arXiv: 2411.02523v1 📥 PDF

作者: Balu Bhasuran, Qiao Jin, Yuzhang Xie, Carl Yang, Karim Hanna, Jennifer Costa, Cindy Shavor, Zhiyong Lu, Zhe He

分类: cs.CL, cs.AI

发布日期: 2024-11-01


💡 一句话要点

评估实验室测试结果对大型语言模型生成临床病例鉴别诊断的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 鉴别诊断 临床病例 实验室测试 医学人工智能

📋 核心要点

  1. 现有方法在利用临床数据进行鉴别诊断时,对实验室测试结果的整合和利用不足,影响诊断准确性。
  2. 本研究探索了大型语言模型在整合实验室测试结果进行鉴别诊断方面的能力,旨在提升诊断的准确性和效率。
  3. 实验结果表明,加入实验室数据后,GPT-4等LLM的诊断准确率显著提升,验证了实验室数据的重要性。

📝 摘要(中文)

鉴别诊断在医学中至关重要,它帮助医护人员系统地区分具有相似症状的疾病。本研究评估了实验室测试结果对大型语言模型(LLM)进行鉴别诊断(DDx)的影响。研究从PubMed Central的50个病例报告中创建了临床病例,其中包含患者的人口统计学信息、症状和实验室结果。测试了五个LLM:GPT-4、GPT-3.5、Llama-2-70b、Claude-2和Mixtral-8x8B,以生成包含和不包含实验室数据的前10、前5和前1 DDx。进行了一项涉及GPT-4、知识图谱和临床医生的综合评估。GPT-4表现最佳,在包含实验室数据的情况下,前1诊断的准确率为55%,前10诊断的准确率为60%,宽松准确率高达80%。实验室结果显著提高了准确性,GPT-4和Mixtral表现出色,但精确匹配率较低。LLM通常能够正确解释实验室测试(包括肝功能、代谢/毒理学检查和血清学/免疫测试)以进行鉴别诊断。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在临床鉴别诊断中,如何有效利用实验室测试结果以提高诊断准确性的问题。现有方法在处理临床病例时,可能无法充分整合和解释实验室数据,导致诊断结果不够精确,缺乏对潜在疾病的全面评估。

核心思路:论文的核心思路是评估大型语言模型在接收到包含实验室测试结果的临床病例信息后,其鉴别诊断的性能表现。通过对比有无实验室数据输入时的诊断结果,来量化实验室数据对诊断准确性的影响。这种方法旨在揭示LLM在医学诊断中的潜力,并识别其在处理复杂临床信息方面的优势和局限性。

技术框架:研究的技术框架主要包括以下几个阶段:1) 从PubMed Central收集50个病例报告,并提取患者的人口统计学信息、症状和实验室结果;2) 构建包含和不包含实验室数据的临床病例;3) 使用GPT-4、GPT-3.5、Llama-2-70b、Claude-2和Mixtral-8x8B等LLM生成Top 10、Top 5和Top 1的鉴别诊断列表;4) 利用GPT-4、知识图谱和临床医生进行综合评估,比较不同LLM在不同数据输入情况下的诊断准确性。

关键创新:该研究的关键创新在于系统性地评估了实验室测试结果对LLM生成鉴别诊断的影响。通过对比有无实验室数据输入时的诊断结果,量化了实验室数据对诊断准确性的贡献。此外,研究还涉及了多种LLM的性能比较,并采用了多种评估方法,包括GPT-4评估、知识图谱验证和临床医生评估,从而保证了评估结果的可靠性和全面性。

关键设计:研究的关键设计包括:1) 选取具有代表性的临床病例,确保病例的多样性和复杂性;2) 选择多种主流LLM进行测试,以评估不同模型的性能差异;3) 采用多种评估指标,包括精确匹配率和宽松准确率,以全面评估诊断结果的质量;4) 引入临床医生进行评估,以确保评估结果的临床意义。

📊 实验亮点

实验结果表明,GPT-4在包含实验室数据的情况下,前1诊断的准确率为55%,前10诊断的准确率为60%,宽松准确率高达80%。实验室结果显著提高了准确性,GPT-4和Mixtral表现出色。这些数据表明,LLM在整合实验室数据进行鉴别诊断方面具有巨大潜力。

🎯 应用场景

该研究成果可应用于辅助临床决策支持系统,帮助医生更准确、高效地进行鉴别诊断。通过整合实验室数据,提升LLM的诊断能力,有望减少误诊和漏诊,改善患者预后。未来,该技术还可扩展到远程医疗、医学教育等领域,赋能医疗健康行业。

📄 摘要(原文)

Differential diagnosis is crucial for medicine as it helps healthcare providers systematically distinguish between conditions that share similar symptoms. This study assesses the impact of lab test results on differential diagnoses (DDx) made by large language models (LLMs). Clinical vignettes from 50 case reports from PubMed Central were created incorporating patient demographics, symptoms, and lab results. Five LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, and Mixtral-8x7B were tested to generate Top 10, Top 5, and Top 1 DDx with and without lab data. A comprehensive evaluation involving GPT-4, a knowledge graph, and clinicians was conducted. GPT-4 performed best, achieving 55% accuracy for Top 1 diagnoses and 60% for Top 10 with lab data, with lenient accuracy up to 80%. Lab results significantly improved accuracy, with GPT-4 and Mixtral excelling, though exact match rates were low. Lab tests, including liver function, metabolic/toxicology panels, and serology/immune tests, were generally interpreted correctly by LLMs for differential diagnosis.