Prompting Large Language Models for Supporting the Differential Diagnosis of Anemia

📄 arXiv: 2409.15377v1 📥 PDF

作者: Elisa Castagnari, Lillian Muyama, Adrien Coulet

分类: cs.CL, cs.AI

发布日期: 2024-09-20

期刊: LLMs4MI 2024 @FLLM 2024, IEEE, Nov 2024, Dubai, United Arab Emirates


💡 一句话要点

利用大型语言模型辅助贫血的鉴别诊断,探索临床路径

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床路径 贫血诊断 提示工程 鉴别诊断

📋 核心要点

  1. 临床指南在诊断方面存在局限性,无法覆盖罕见病例,且更新缓慢,难以适应新疾病。
  2. 利用大型语言模型和提示工程,模拟临床指南生成诊断路径,辅助贫血鉴别诊断。
  3. 实验表明,大型语言模型在临床路径发现方面潜力巨大,GPT-4表现最佳。

📝 摘要(中文)

临床医生通常通过一系列步骤(如实验室检查、观察或影像学)进行诊断。专家组织制定的指南记录了达到诊断决策的路径,指导临床医生通过这些步骤得出正确的诊断。虽然这些指南有助于医学推理和巩固医学知识,但它们也存在一些缺点。由于它们侧重于多数人群,因此常常无法解决患有罕见疾病的患者,并且更新速度慢且成本高昂,不适合快速出现的新疾病或新实践。受临床指南的启发,本研究旨在开发类似于临床指南中获得的路径。我们测试了三个大型语言模型(LLM)——Generative Pretrained Transformer 4 (GPT-4)、Large Language Model Meta AI (LLaMA) 和 Mistral——在一个合成但真实的数据集上,以对贫血及其亚型进行鉴别诊断。通过使用先进的提示技术来增强决策过程,我们使用这些模型生成了诊断路径。实验结果表明,LLM在从患者数据中发现临床路径方面具有巨大的潜力,其中GPT-4在所有进行的实验中表现出最佳性能。

🔬 方法详解

问题定义:论文旨在解决贫血及其亚型的鉴别诊断问题。现有临床指南存在无法覆盖罕见病例、更新缓慢等痛点,难以适应快速变化的医疗环境。因此,需要一种能够快速、灵活地生成诊断路径的方法,以辅助临床医生进行诊断。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大推理能力和知识储备,通过提示工程(Prompt Engineering)模拟临床医生的诊断过程,生成类似于临床指南的诊断路径。这种方法可以克服传统临床指南的局限性,更好地适应个体化医疗的需求。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建合成但真实的贫血诊断数据集;2) 选择GPT-4、LLaMA和Mistral三个大型语言模型;3) 设计有效的提示(Prompts),引导LLMs进行诊断推理;4) 利用LLMs生成诊断路径;5) 评估生成的诊断路径的准确性和合理性。

关键创新:该研究的关键创新在于将大型语言模型应用于临床路径发现,并利用提示工程来增强LLMs的诊断推理能力。与传统的基于规则或统计模型的诊断方法相比,该方法具有更强的灵活性和适应性,能够更好地处理复杂和罕见的病例。

关键设计:论文的关键设计包括:1) 合成数据集的构建,需要保证数据的真实性和多样性,以模拟真实的临床场景;2) 提示的设计,需要充分利用LLMs的知识和推理能力,引导其进行正确的诊断;3) 评估指标的选择,需要综合考虑诊断的准确性和路径的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在从患者数据中发现临床路径方面具有巨大的潜力,其中GPT-4在所有进行的实验中表现出最佳性能。虽然论文中没有给出具体的性能数据,但强调了GPT-4在诊断准确性和路径合理性方面的优势,暗示了其在临床应用中的巨大潜力。

🎯 应用场景

该研究成果可应用于临床决策支持系统,辅助医生进行贫血等疾病的鉴别诊断,提高诊断效率和准确性。此外,该方法还可以推广到其他疾病的诊断,为个体化医疗提供更强大的支持。未来,可以结合患者的实际数据,进一步优化LLMs的诊断能力。

📄 摘要(原文)

In practice, clinicians achieve a diagnosis by following a sequence of steps, such as laboratory exams, observations, or imaging. The pathways to reach diagnosis decisions are documented by guidelines authored by expert organizations, which guide clinicians to reach a correct diagnosis through these sequences of steps. While these guidelines are beneficial for following medical reasoning and consolidating medical knowledge, they have some drawbacks. They often fail to address patients with uncommon conditions due to their focus on the majority population, and are slow and costly to update, making them unsuitable for rapidly emerging diseases or new practices. Inspired by clinical guidelines, our study aimed to develop pathways similar to those that can be obtained in clinical guidelines. We tested three Large Language Models (LLMs) -Generative Pretrained Transformer 4 (GPT-4), Large Language Model Meta AI (LLaMA), and Mistral -on a synthetic yet realistic dataset to differentially diagnose anemia and its subtypes. By using advanced prompting techniques to enhance the decision-making process, we generated diagnostic pathways using these models. Experimental results indicate that LLMs hold huge potential in clinical pathway discovery from patient data, with GPT-4 exhibiting the best performance in all conducted experiments.