ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning
作者: Yuqi Tang, Jing Yu, Zichang Su, Kehua Feng, Zhihui Zhu, Libin Wang, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen
分类: cs.CL
发布日期: 2025-12-29
备注: 23 pages, 4 figures, under review
💡 一句话要点
ClinDEF:用于评估大型语言模型临床推理能力的动态评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床推理 动态评估 知识图谱 医疗诊断
📋 核心要点
- 现有LLM基准测试缺乏对动态医患交互过程的模拟,无法有效评估临床推理能力。
- ClinDEF框架基于疾病知识图谱,动态生成病例,模拟医生与患者之间的多轮对话。
- ClinDEF不仅评估诊断准确性,还进行细粒度的效率分析和诊断质量的 rubric 评估。
📝 摘要(中文)
临床诊断始于医患互动,医生通过患者的反馈迭代地收集信息、确定检查并完善鉴别诊断。现有的LLM基准测试主要关注静态问答,无法很好地代表这种动态的临床推理过程。为了弥补这些差距,最近的方法探索了涉及交互式临床对话的动态医疗框架。尽管有效,但它们通常依赖于有限的、容易受到污染的数据集,并且缺乏细粒度的多层次评估。本文提出了ClinDEF,一个用于通过模拟诊断对话评估LLM临床推理能力的动态框架。基于疾病知识图谱,我们的方法动态生成患者病例,并促进基于LLM的医生与自动患者代理之间的多轮互动。我们的评估协议超越了诊断准确性,纳入了细粒度的效率分析和基于标准的诊断质量评估。实验表明,ClinDEF有效地揭示了最先进的LLM中存在的关键临床推理差距,提供了一种更细致和临床意义更强的评估范式。
🔬 方法详解
问题定义:论文旨在解决现有大型语言模型(LLM)在临床推理评估中存在的不足。现有方法主要依赖静态问答数据集,无法模拟真实的医患交互过程,导致对LLM临床推理能力的评估不够全面和细致。此外,现有动态医疗框架依赖的数据集有限且容易受到污染,缺乏细粒度的多层次评估。
核心思路:论文的核心思路是构建一个动态的评估框架,通过模拟医患之间的诊断对话来评估LLM的临床推理能力。该框架基于疾病知识图谱,能够动态生成患者病例,并允许LLM扮演医生角色与自动患者代理进行多轮交互。通过这种方式,可以更真实地模拟临床诊断过程,从而更全面地评估LLM的临床推理能力。
技术框架:ClinDEF框架主要包含以下几个模块:1) 疾病知识图谱:用于提供疾病相关的知识和信息。2) 病例生成器:基于疾病知识图谱动态生成患者病例。3) 患者代理:模拟患者的行为和反应,与LLM扮演的医生进行交互。4) LLM医生:使用LLM扮演医生角色,根据患者代理的反馈进行诊断和提问。5) 评估模块:对LLM医生的诊断结果进行评估,包括诊断准确性、效率和诊断质量。
关键创新:ClinDEF的关键创新在于其动态的评估方式和细粒度的评估指标。与传统的静态问答评估相比,ClinDEF能够更真实地模拟临床诊断过程,从而更全面地评估LLM的临床推理能力。此外,ClinDEF不仅评估诊断准确性,还引入了效率分析和基于标准的诊断质量评估,从而提供了更细致的评估结果。
关键设计:病例生成器基于疾病知识图谱,通过随机游走等算法生成具有不同症状和病史的患者病例。患者代理根据预定义的规则和知识图谱中的信息,对LLM医生的提问做出相应的回答。评估模块使用多种指标来评估LLM医生的诊断结果,包括诊断准确率、诊断步骤数和基于 rubric 的诊断质量评分。具体的 rubric 设计参考了临床诊断的标准流程和最佳实践。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ClinDEF能够有效地揭示现有最先进的LLM在临床推理方面存在的差距。通过ClinDEF的评估,研究人员可以更清楚地了解LLM在处理复杂临床病例时的不足之处,从而有针对性地进行改进。例如,实验发现某些LLM在处理罕见疾病或复杂病史时表现不佳,而ClinDEF能够有效地捕捉到这些问题。
🎯 应用场景
ClinDEF框架可用于评估和改进LLM在医疗领域的应用,例如辅助诊断、智能问诊等。通过该框架,可以更全面地了解LLM在临床推理方面的能力,从而更好地将其应用于实际的医疗场景中。此外,该框架还可以用于开发更智能的医疗机器人和虚拟医生,提高医疗服务的效率和质量。
📄 摘要(原文)
Clinical diagnosis begins with doctor-patient interaction, during which physicians iteratively gather information, determine examination and refine differential diagnosis through patients' response. This dynamic clinical-reasoning process is poorly represented by existing LLM benchmarks that focus on static question-answering. To mitigate these gaps, recent methods explore dynamic medical frameworks involving interactive clinical dialogues. Although effective, they often rely on limited, contamination-prone datasets and lack granular, multi-level evaluation. In this work, we propose ClinDEF, a dynamic framework for assessing clinical reasoning in LLMs through simulated diagnostic dialogues. Grounded in a disease knowledge graph, our method dynamically generates patient cases and facilitates multi-turn interactions between an LLM-based doctor and an automated patient agent. Our evaluation protocol goes beyond diagnostic accuracy by incorporating fine-grained efficiency analysis and rubric-based assessment of diagnostic quality. Experiments show that ClinDEF effectively exposes critical clinical reasoning gaps in state-of-the-art LLMs, offering a more nuanced and clinically meaningful evaluation paradigm.