CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making

📄 arXiv: 2406.09923v2 📥 PDF

作者: Mingyu Derek Ma, Chenchen Ye, Yu Yan, Xiaoxuan Wang, Peipei Ping, Timothy S Chang, Wei Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-14 (更新: 2024-10-11)

备注: Project page: https://clibench.github.io


💡 一句话要点

CliBench:一个多方面、多粒度的大语言模型临床决策评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床决策 评估基准 医疗AI MIMIC IV

📋 核心要点

  1. 现有LLM临床诊断评估范围窄,任务简化,难以反映真实临床场景的复杂性。
  2. CliBench构建于MIMIC IV数据集,涵盖多种专科和临床任务,提供全面评估。
  3. 零样本评估结果揭示了现有LLM在临床决策中的潜力和局限性,为未来研究提供指导。

📝 摘要(中文)

人工智能(AI),特别是大型语言模型(LLMs),融入临床诊断过程具有显著潜力,可以提高医疗效率和可及性。尽管LLM在医学领域展现出前景,但其在临床诊断中的应用仍有待探索,尤其是在需要做出高度复杂、患者特异性决策的真实临床实践中。目前对LLM在该领域的评估范围通常较窄,侧重于特定疾病或专科,并采用简化的诊断任务。为了弥合这一差距,我们推出了CliBench,这是一个基于MIMIC IV数据集开发的新基准,可对LLM在临床诊断中的能力进行全面而真实的评估。该基准不仅涵盖了来自各个专科的各种医疗案例的诊断,还纳入了具有临床意义的任务:治疗程序识别、实验室检查开具和药物处方。在结构化输出本体的支持下,CliBench能够进行精确且多粒度的评估,从而深入了解LLM在所需粒度的各种临床任务中的能力。我们对领先的LLM进行了零样本评估,以评估其在临床决策中的熟练程度。我们的初步结果揭示了当前LLM在临床环境中的潜力和局限性,为LLM驱动的医疗保健的未来发展提供了宝贵的见解。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型(LLM)在临床决策应用中评估不足的问题。现有评估方法通常集中于特定疾病或专科,采用简化的诊断任务,无法真实反映临床实践中复杂、患者特异性的决策过程。因此,需要一个更全面、更细粒度的评估基准,以准确衡量LLM在临床环境中的能力。

核心思路:论文的核心思路是构建一个基于真实临床数据的综合性评估基准,即CliBench。该基准不仅覆盖多种医学专科和疾病,还包含具有临床意义的任务,如治疗程序识别、实验室检查开具和药物处方。通过结构化的输出本体,实现对LLM临床决策能力的多粒度评估。

技术框架:CliBench的整体框架包括以下几个关键部分:1) 数据集构建:基于MIMIC IV数据集,选择并处理涵盖多种专科和疾病的临床数据。2) 任务定义:定义一系列具有临床意义的任务,包括诊断、治疗程序识别、实验室检查开具和药物处方。3) 输出本体构建:构建结构化的输出本体,用于规范LLM的输出格式,并支持多粒度评估。4) 评估指标设计:设计合适的评估指标,用于衡量LLM在不同任务和粒度上的性能。5) 零样本评估:对现有LLM进行零样本评估,分析其在临床决策中的潜力和局限性。

关键创新:CliBench的关键创新在于其综合性和多粒度评估能力。与现有评估方法相比,CliBench覆盖了更广泛的医学领域和临床任务,能够更全面地评估LLM的临床决策能力。此外,CliBench通过结构化的输出本体,实现了对LLM输出结果的多粒度分析,从而更深入地了解LLM在不同粒度上的性能表现。

关键设计:CliBench的关键设计包括:1) 基于MIMIC IV数据集,保证了数据的真实性和临床相关性。2) 涵盖多种临床任务,能够全面评估LLM的临床决策能力。3) 采用结构化的输出本体,支持多粒度评估。4) 进行零样本评估,避免了对LLM的微调,从而更客观地评估其通用能力。具体的参数设置、损失函数和网络结构等技术细节取决于被评估的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对多个领先的LLM进行了零样本评估,结果表明,现有LLM在某些临床任务中表现出一定的潜力,但在其他任务中仍存在局限性。例如,LLM在诊断任务中表现相对较好,但在治疗程序识别和药物处方等任务中表现较差。这些结果为未来LLM在医疗领域的应用提供了宝贵的参考。

🎯 应用场景

CliBench可用于评估和比较不同LLM在临床决策中的性能,指导LLM在医疗领域的应用。该基准可以帮助研究人员开发更有效的LLM,辅助医生进行诊断和治疗,提高医疗效率和质量。未来,CliBench可以扩展到更多医学领域和临床任务,并与其他医疗数据源集成,构建更强大的临床决策支持系统。

📄 摘要(原文)

The integration of Artificial Intelligence (AI), especially Large Language Models (LLMs), into the clinical diagnosis process offers significant potential to improve the efficiency and accessibility of medical care. While LLMs have shown some promise in the medical domain, their application in clinical diagnosis remains underexplored, especially in real-world clinical practice, where highly sophisticated, patient-specific decisions need to be made. Current evaluations of LLMs in this field are often narrow in scope, focusing on specific diseases or specialties and employing simplified diagnostic tasks. To bridge this gap, we introduce CliBench, a novel benchmark developed from the MIMIC IV dataset, offering a comprehensive and realistic assessment of LLMs' capabilities in clinical diagnosis. This benchmark not only covers diagnoses from a diverse range of medical cases across various specialties but also incorporates tasks of clinical significance: treatment procedure identification, lab test ordering and medication prescriptions. Supported by structured output ontologies, CliBench enables a precise and multi-granular evaluation, offering an in-depth understanding of LLM's capability on diverse clinical tasks of desired granularity. We conduct a zero-shot evaluation of leading LLMs to assess their proficiency in clinical decision-making. Our preliminary results shed light on the potential and limitations of current LLMs in clinical settings, providing valuable insights for future advancements in LLM-powered healthcare.