Interpretable Differential Diagnosis with Dual-Inference Large Language Models

📄 arXiv: 2407.07330v2 📥 PDF

作者: Shuang Zhou, Mingquan Lin, Sirui Ding, Jiashuo Wang, Genevieve B. Melton, James Zou, Rui Zhang

分类: cs.CL, cs.AI

发布日期: 2024-07-10 (更新: 2024-11-06)

备注: 16 pages


💡 一句话要点

提出Dual-Inf框架,利用双向推理LLM实现可解释的鉴别诊断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 鉴别诊断 大型语言模型 可解释性 双向推理 临床决策支持

📋 核心要点

  1. 现有鉴别诊断方法缺乏可解释性,限制了医生对诊断结果的信任和理解。
  2. Dual-Inf框架通过双向推理,使LLM能够从症状推断诊断,并从诊断反推症状,提供更全面的解释。
  3. 实验表明,Dual-Inf在鉴别诊断的预测和解释方面表现出色,并能减少解释错误,尤其是在罕见疾病方面。

📝 摘要(中文)

自动鉴别诊断(DDx)是一项重要的医疗任务,它基于患者的症状描述生成潜在疾病列表作为鉴别诊断。在实践中,解释这些鉴别诊断具有重要价值,但尚未得到充分探索。鉴于大型语言模型(LLM)的强大能力,我们研究了使用LLM进行可解释的DDx。具体来说,我们整理了第一个DDx数据集,其中包含570份临床笔记的专家解释。此外,我们提出了Dual-Inf,这是一个新颖的框架,使LLM能够进行双向推理(即从症状到诊断,反之亦然)以进行DDx解释。人类和自动评估都验证了其在预测和阐明跨四个基础LLM的差异方面的有效性。此外,Dual-Inf可以减少解释错误,并有望用于罕见疾病的解释。据我们所知,这是第一个定制LLM进行DDx解释并全面评估其解释性能的工作。总的来说,我们的研究弥合了DDx解释中的一个关键差距,并增强了临床决策。

🔬 方法详解

问题定义:论文旨在解决自动鉴别诊断(DDx)的可解释性问题。现有的DDx方法通常只输出一个疾病列表,缺乏对诊断结果的解释,使得医生难以理解诊断的依据,从而影响了临床决策的效率和准确性。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大推理能力,通过双向推理的方式,从症状到诊断,以及从诊断到症状,提供对鉴别诊断结果的解释。这种双向推理能够更全面地揭示症状与疾病之间的关联,从而提高诊断的可解释性。

技术框架:Dual-Inf框架包含两个主要阶段:症状到诊断的推理阶段和诊断到症状的推理阶段。在症状到诊断的推理阶段,LLM根据患者的症状描述生成一个潜在疾病列表。在诊断到症状的推理阶段,LLM针对每个潜在疾病,生成一个症状列表,解释为什么该疾病可能与患者的症状相关。这两个阶段的推理结果结合起来,为医生提供更全面的诊断解释。

关键创新:该论文的关键创新在于提出了Dual-Inf框架,该框架利用LLM的双向推理能力,实现了可解释的鉴别诊断。与传统的DDx方法相比,Dual-Inf不仅能够预测潜在疾病,还能够解释诊断的依据,从而提高了诊断的可信度和实用性。

关键设计:论文中,作者构建了一个包含570份临床笔记的DDx数据集,并由专家对这些临床笔记进行了标注,提供了诊断的解释。在训练LLM时,作者使用了交叉熵损失函数,并对罕见疾病的样本进行了加权,以提高LLM对罕见疾病的诊断能力。此外,作者还探索了不同的LLM架构,并选择了在DDx任务中表现最佳的模型。

📊 实验亮点

实验结果表明,Dual-Inf框架在鉴别诊断的预测和解释方面均优于现有的方法。具体来说,Dual-Inf在预测准确率方面取得了显著提升,并且能够生成更准确、更全面的诊断解释。此外,Dual-Inf在罕见疾病的诊断方面也表现出色,能够有效减少罕见疾病的误诊率。

🎯 应用场景

该研究成果可应用于临床决策支持系统,帮助医生更准确、更高效地进行鉴别诊断。通过提供可解释的诊断结果,该方法可以增强医生对诊断结果的信任,减少误诊和漏诊的风险。此外,该方法还有望应用于远程医疗、患者教育等领域,提高医疗服务的质量和可及性。

📄 摘要(原文)

Automatic differential diagnosis (DDx) is an essential medical task that generates a list of potential diseases as differentials based on patient symptom descriptions. In practice, interpreting these differential diagnoses yields significant value but remains under-explored. Given the powerful capabilities of large language models (LLMs), we investigated using LLMs for interpretable DDx. Specifically, we curated the first DDx dataset with expert-derived interpretation on 570 clinical notes. Besides, we proposed Dual-Inf, a novel framework that enabled LLMs to conduct bidirectional inference (i.e., from symptoms to diagnoses and vice versa) for DDx interpretation. Both human and automated evaluation validated its efficacy in predicting and elucidating differentials across four base LLMs. In addition, Dual-Inf could reduce interpretation errors and hold promise for rare disease explanations. To the best of our knowledge, it is the first work that customizes LLMs for DDx explanation and comprehensively evaluates their interpretation performance. Overall, our study bridges a critical gap in DDx interpretation and enhances clinical decision-making.