ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning

作者: Yuqi Tang, Jing Yu, Zichang Su, Kehua Feng, Zhihui Zhu, Libin Wang, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen

分类: cs.CL

发布日期: 2025-12-29

备注: 23 pages, 4 figures, under review

💡 一句话要点

ClinDEF：用于评估大型语言模型临床推理能力的动态评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床推理 动态评估 知识图谱 医疗诊断

📋 核心要点

现有LLM基准测试缺乏对动态医患交互过程的模拟，无法有效评估临床推理能力。
ClinDEF框架基于疾病知识图谱，动态生成病例，模拟医生与患者之间的多轮对话。
ClinDEF不仅评估诊断准确性，还进行细粒度的效率分析和诊断质量的 rubric 评估。

📝 摘要（中文）

临床诊断始于医患互动，医生通过患者的反馈迭代地收集信息、确定检查并完善鉴别诊断。现有的LLM基准测试主要关注静态问答，无法很好地代表这种动态的临床推理过程。为了弥补这些差距，最近的方法探索了涉及交互式临床对话的动态医疗框架。尽管有效，但它们通常依赖于有限的、容易受到污染的数据集，并且缺乏细粒度的多层次评估。本文提出了ClinDEF，一个用于通过模拟诊断对话评估LLM临床推理能力的动态框架。基于疾病知识图谱，我们的方法动态生成患者病例，并促进基于LLM的医生与自动患者代理之间的多轮互动。我们的评估协议超越了诊断准确性，纳入了细粒度的效率分析和基于标准的诊断质量评估。实验表明，ClinDEF有效地揭示了最先进的LLM中存在的关键临床推理差距，提供了一种更细致和临床意义更强的评估范式。

🔬 方法详解

问题定义：论文旨在解决现有大型语言模型（LLM）在临床推理评估中存在的不足。现有方法主要依赖静态问答数据集，无法模拟真实的医患交互过程，导致对LLM临床推理能力的评估不够全面和细致。此外，现有动态医疗框架依赖的数据集有限且容易受到污染，缺乏细粒度的多层次评估。

核心思路：论文的核心思路是构建一个动态的评估框架，通过模拟医患之间的诊断对话来评估LLM的临床推理能力。该框架基于疾病知识图谱，能够动态生成患者病例，并允许LLM扮演医生角色与自动患者代理进行多轮交互。通过这种方式，可以更真实地模拟临床诊断过程，从而更全面地评估LLM的临床推理能力。

技术框架：ClinDEF框架主要包含以下几个模块：1) 疾病知识图谱：用于提供疾病相关的知识和信息。2) 病例生成器：基于疾病知识图谱动态生成患者病例。3) 患者代理：模拟患者的行为和反应，与LLM扮演的医生进行交互。4) LLM医生：使用LLM扮演医生角色，根据患者代理的反馈进行诊断和提问。5) 评估模块：对LLM医生的诊断结果进行评估，包括诊断准确性、效率和诊断质量。

关键创新：ClinDEF的关键创新在于其动态的评估方式和细粒度的评估指标。与传统的静态问答评估相比，ClinDEF能够更真实地模拟临床诊断过程，从而更全面地评估LLM的临床推理能力。此外，ClinDEF不仅评估诊断准确性，还引入了效率分析和基于标准的诊断质量评估，从而提供了更细致的评估结果。

关键设计：病例生成器基于疾病知识图谱，通过随机游走等算法生成具有不同症状和病史的患者病例。患者代理根据预定义的规则和知识图谱中的信息，对LLM医生的提问做出相应的回答。评估模块使用多种指标来评估LLM医生的诊断结果，包括诊断准确率、诊断步骤数和基于 rubric 的诊断质量评分。具体的 rubric 设计参考了临床诊断的标准流程和最佳实践。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ClinDEF能够有效地揭示现有最先进的LLM在临床推理方面存在的差距。通过ClinDEF的评估，研究人员可以更清楚地了解LLM在处理复杂临床病例时的不足之处，从而有针对性地进行改进。例如，实验发现某些LLM在处理罕见疾病或复杂病史时表现不佳，而ClinDEF能够有效地捕捉到这些问题。

🎯 应用场景

ClinDEF框架可用于评估和改进LLM在医疗领域的应用，例如辅助诊断、智能问诊等。通过该框架，可以更全面地了解LLM在临床推理方面的能力，从而更好地将其应用于实际的医疗场景中。此外，该框架还可以用于开发更智能的医疗机器人和虚拟医生，提高医疗服务的效率和质量。

📄 摘要（原文）

Clinical diagnosis begins with doctor-patient interaction, during which physicians iteratively gather information, determine examination and refine differential diagnosis through patients' response. This dynamic clinical-reasoning process is poorly represented by existing LLM benchmarks that focus on static question-answering. To mitigate these gaps, recent methods explore dynamic medical frameworks involving interactive clinical dialogues. Although effective, they often rely on limited, contamination-prone datasets and lack granular, multi-level evaluation. In this work, we propose ClinDEF, a dynamic framework for assessing clinical reasoning in LLMs through simulated diagnostic dialogues. Grounded in a disease knowledge graph, our method dynamically generates patient cases and facilitates multi-turn interactions between an LLM-based doctor and an automated patient agent. Our evaluation protocol goes beyond diagnostic accuracy by incorporating fine-grained efficiency analysis and rubric-based assessment of diagnostic quality. Experiments show that ClinDEF effectively exposes critical clinical reasoning gaps in state-of-the-art LLMs, offering a more nuanced and clinically meaningful evaluation paradigm.

ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理