MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models

作者: Lecheng Gong, Weimin Fang, Ting Yang, Dongjie Tao, Chunxiao Guo, Peng Wei, Bo Xie, Jinqun Guan, Zixiao Chen, Fang Shi, Jinjie Gu, Junwei Liu

分类: cs.CL, cs.HC

发布日期: 2026-01-06

💡 一句话要点

MedDialogRubrics：构建多轮医疗咨询的综合评测基准与框架，提升医学LLM诊断能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学对话AI 大型语言模型 评估基准 多轮对话 诊断推理

📋 核心要点

现有医学LLM评估基准缺乏对信息收集和诊断推理能力的严格评估，限制了医疗对话AI的发展。
MedDialogRubrics通过合成患者案例和专家改进的评估标准，构建了多轮诊断能力评测的基准。
实验结果表明，现有模型在多个评估维度上面临挑战，需要改进对话管理架构。

📝 摘要（中文）

医学对话AI在开发更安全有效的医疗对话系统中起着关键作用。然而，现有的评估医学大型语言模型（LLM）信息收集和诊断推理能力的基准和评估框架尚未经过严格评估。为了解决这些差距，我们提出了MedDialogRubrics，这是一个新颖的基准，包含5200个合成构建的患者案例和超过60000个由LLM生成并由临床专家改进的细粒度评估标准，专门用于评估LLM的多轮诊断能力。我们的框架采用多智能体系统，从潜在的疾病知识中合成真实的患者记录和主诉，而无需访问真实世界的电子健康记录，从而减轻了隐私和数据治理方面的担忧。我们设计了一个强大的患者代理，该代理仅限于一组原子医学事实，并辅以动态指导机制，该机制可以持续检测和纠正整个对话过程中的幻觉，从而确保模拟案例的内部连贯性和临床合理性。此外，我们提出了一个结构化的基于LLM和专家注释的标准生成流程，该流程检索循证医学（EBM）指南，并利用拒绝抽样来为每个案例导出一组优先级的标准项（“必须问”项）。我们对最先进的模型进行了全面评估，并表明，在多个评估维度上，当前模型面临着巨大的挑战。我们的结果表明，改进医学对话将需要对话管理架构方面的进步，而不仅仅是对基础模型的增量调整。

🔬 方法详解

问题定义：现有医学LLM的评估基准和框架，在评估模型的信息收集和诊断推理能力方面存在不足，缺乏细粒度的评估标准，难以准确衡量模型在多轮对话中的表现。这阻碍了医学对话AI的进一步发展和应用。

核心思路：论文的核心思路是构建一个综合性的评测基准和框架，即MedDialogRubrics，用于更全面、更细致地评估医学LLM在多轮医疗咨询中的诊断能力。通过合成患者案例和生成细粒度的评估标准，来弥补现有基准的不足。

技术框架：MedDialogRubrics框架包含以下主要模块：1) 患者案例合成：使用多智能体系统，从疾病知识中合成患者记录和主诉，避免直接使用真实电子健康记录，保护隐私。2) 患者代理：设计一个受限的患者代理，仅提供原子医学事实，并使用动态指导机制纠正对话中的幻觉，保证案例的连贯性和临床合理性。3) 评估标准生成：基于LLM和专家注释，检索循证医学指南，使用拒绝抽样生成优先级的评估标准（“必须问”项）。4) 模型评估：使用生成的基准和评估标准，对现有医学LLM进行全面评估。

关键创新：该论文的关键创新在于：1) 合成患者案例：通过多智能体系统合成患者案例，避免了隐私问题，并能灵活控制案例的复杂度和多样性。2) 动态幻觉纠正：患者代理的动态指导机制能够持续检测和纠正对话中的幻觉，保证了案例的临床合理性。3) 基于EBM的评估标准生成：利用LLM和专家知识，从循证医学指南中提取评估标准，保证了评估的科学性和可靠性。

关键设计：在患者代理中，动态指导机制的设计是关键，它需要能够准确检测和纠正对话中的幻觉，保证案例的内部一致性和临床合理性。评估标准生成流程中，拒绝抽样的使用能够保证生成的标准项具有优先级，从而更有效地评估模型的诊断能力。此外，对LLM生成结果的专家审核也是保证评估标准质量的关键步骤。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有医学LLM在MedDialogRubrics基准上表现不佳，在多个评估维度上面临挑战。这表明，仅仅对基础模型进行微调不足以显著提升医学对话能力，需要对对话管理架构进行改进。该研究为未来医学对话AI的发展方向提供了重要启示。

🎯 应用场景

MedDialogRubrics可用于评估和改进医学对话AI系统，辅助医生进行诊断和治疗决策，提高医疗效率和质量。该基准和框架能够推动医学LLM在临床实践中的应用，例如智能问诊、健康咨询和患者教育等。

📄 摘要（原文）

Medical conversational AI (AI) plays a pivotal role in the development of safer and more effective medical dialogue systems. However, existing benchmarks and evaluation frameworks for assessing the information-gathering and diagnostic reasoning abilities of medical large language models (LLMs) have not been rigorously evaluated. To address these gaps, we present MedDialogRubrics, a novel benchmark comprising 5,200 synthetically constructed patient cases and over 60,000 fine-grained evaluation rubrics generated by LLMs and subsequently refined by clinical experts, specifically designed to assess the multi-turn diagnostic capabilities of LLM. Our framework employs a multi-agent system to synthesize realistic patient records and chief complaints from underlying disease knowledge without accessing real-world electronic health records, thereby mitigating privacy and data-governance concerns. We design a robust Patient Agent that is limited to a set of atomic medical facts and augmented with a dynamic guidance mechanism that continuously detects and corrects hallucinations throughout the dialogue, ensuring internal coherence and clinical plausibility of the simulated cases. Furthermore, we propose a structured LLM-based and expert-annotated rubric-generation pipeline that retrieves Evidence-Based Medicine (EBM) guidelines and utilizes the reject sampling to derive a prioritized set of rubric items ("must-ask" items) for each case. We perform a comprehensive evaluation of state-of-the-art models and demonstrate that, across multiple assessment dimensions, current models face substantial challenges. Our results indicate that improving medical dialogue will require advances in dialogue management architectures, not just incremental tuning of the base-model.

MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册