ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning

作者: Yuqi Tang, Jing Yu, Zichang Su, Kehua Feng, Zhihui Zhu, Libin Wang, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen

分类: cs.CL

发布日期: 2025-12-29

备注: 23 pages, 4 figures, under review

💡 一句话要点

提出ClinDEF动态评估框架，用于评估大型语言模型在临床推理中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床推理 动态评估 医患对话 知识图谱

📋 核心要点

现有LLM评估侧重静态问答，无法有效评估临床推理中动态交互的过程。
ClinDEF框架基于疾病知识图谱，动态生成病例，模拟医患多轮交互对话。
ClinDEF评估协议不仅关注诊断准确性，还包括效率分析和诊断质量评估。

📝 摘要（中文）

临床诊断始于医患互动，医生通过患者的反馈迭代地收集信息、确定检查并完善鉴别诊断。现有的LLM基准测试侧重于静态问答，难以体现这种动态的临床推理过程。为了弥补这些差距，最近的方法探索了涉及交互式临床对话的动态医学框架。尽管有效，但它们通常依赖于有限的、易受污染的数据集，并且缺乏细粒度的多层次评估。本文提出了ClinDEF，一个用于评估LLM在模拟诊断对话中临床推理能力的动态框架。该方法基于疾病知识图谱，动态生成病例，并促进基于LLM的医生与自动患者代理之间的多轮交互。我们的评估协议超越了诊断准确性，纳入了细粒度的效率分析和基于标准的诊断质量评估。实验表明，ClinDEF有效地揭示了最先进的LLM中关键的临床推理差距，提供了一种更细致和临床意义的评估范式。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在临床推理方面的评估主要依赖于静态的问答形式，无法模拟真实的医患交互过程。这种静态评估方式忽略了医生在诊断过程中需要不断收集信息、调整诊断方向的动态性。此外，现有的动态医学框架依赖的数据集有限，容易受到污染，并且缺乏细粒度的多层次评估，难以全面反映LLM在临床推理中的能力。

核心思路：ClinDEF的核心思路是构建一个动态的评估框架，通过模拟医患之间的对话来评估LLM的临床推理能力。该框架基于疾病知识图谱，可以动态生成不同的病例，并允许LLM扮演医生角色与自动患者代理进行多轮交互。通过这种方式，可以更真实地模拟临床诊断过程，并对LLM的推理能力进行更全面的评估。

技术框架：ClinDEF框架主要包含以下几个模块：1) 疾病知识图谱：用于存储疾病、症状、检查等相关信息，为病例生成和患者代理提供知识基础。2) 病例生成器：基于疾病知识图谱，动态生成不同的患者病例，包括患者的基本信息、主诉、病史等。3) 患者代理：模拟患者的行为，根据医生的提问提供相应的回答。4) LLM医生：扮演医生的角色，与患者代理进行对话，收集信息，进行诊断。5) 评估模块：对LLM医生的诊断结果进行评估，包括诊断准确性、效率和诊断质量。

关键创新：ClinDEF的关键创新在于其动态的评估方式，能够模拟真实的医患交互过程，更全面地评估LLM在临床推理方面的能力。与现有的静态评估方法相比，ClinDEF能够更好地反映LLM在信息收集、诊断推理和决策制定方面的能力。此外，ClinDEF还引入了细粒度的评估指标，包括效率分析和基于标准的诊断质量评估，能够更深入地分析LLM的优势和不足。

关键设计：ClinDEF框架的关键设计包括：1) 疾病知识图谱的构建：需要选择合适的知识图谱构建方法，并确保知识图谱的完整性和准确性。2) 患者代理的设计：需要设计合理的患者行为模型，使其能够根据医生的提问提供真实、合理的回答。3) 评估指标的选择：需要选择能够全面反映LLM临床推理能力的评估指标，包括诊断准确性、效率和诊断质量。4) 多轮对话的管理：需要设计有效的对话管理机制，确保对话的流畅性和有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ClinDEF能够有效地揭示现有LLM在临床推理方面的差距。例如，一些最先进的LLM在诊断准确性方面表现不佳，并且在信息收集和诊断推理方面存在明显的不足。ClinDEF的评估结果为改进LLM在医疗领域的应用提供了重要的参考。

🎯 应用场景

ClinDEF框架可用于评估和改进LLM在医疗领域的应用，例如辅助诊断、智能问诊等。通过该框架，可以发现LLM在临床推理方面的不足，并针对性地进行改进，提高LLM在医疗领域的实用性和可靠性。此外，该框架还可以用于医学教育，帮助医学生提高临床推理能力。

📄 摘要（原文）

Clinical diagnosis begins with doctor-patient interaction, during which physicians iteratively gather information, determine examination and refine differential diagnosis through patients' response. This dynamic clinical-reasoning process is poorly represented by existing LLM benchmarks that focus on static question-answering. To mitigate these gaps, recent methods explore dynamic medical frameworks involving interactive clinical dialogues. Although effective, they often rely on limited, contamination-prone datasets and lack granular, multi-level evaluation. In this work, we propose ClinDEF, a dynamic framework for assessing clinical reasoning in LLMs through simulated diagnostic dialogues. Grounded in a disease knowledge graph, our method dynamically generates patient cases and facilitates multi-turn interactions between an LLM-based doctor and an automated patient agent. Our evaluation protocol goes beyond diagnostic accuracy by incorporating fine-grained efficiency analysis and rubric-based assessment of diagnostic quality. Experiments show that ClinDEF effectively exposes critical clinical reasoning gaps in state-of-the-art LLMs, offering a more nuanced and clinically meaningful evaluation paradigm.

ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册