Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support
作者: Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu, Lu Gan
分类: cs.AI
发布日期: 2026-05-21
💡 一句话要点
提出OSCE模拟器与诊断基准,揭示LLM在交互式临床诊断中证据搜寻的不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床决策支持 交互式诊断 证据搜寻 标准化病人模拟器
📋 核心要点
- 现有医学诊断的LLM评估主要依赖静态数据,忽略了临床诊断中迭代证据收集的重要性。
- 构建了OSCE启发的标准化病人模拟器和诊断基准,用于评估LLM在主动证据搜寻中的表现。
- 实验表明,多轮证据搜寻降低了诊断准确率和证据质量,揭示了LLM在交互式诊断中的不足。
📝 摘要(中文)
大型语言模型在静态医学检查中表现出色,但临床诊断通常需要在不确定性下进行迭代式证据收集。本文在先前的交互式评估工作基础上,引入了一个受OSCE启发的标准化病人模拟器,以及一个可控、可复现的用于主动诊断询问的基准。在我们的协议中,跨越468个案例和15个模型,我们观察到多轮证据搜寻相对于完整上下文评估,诊断准确率降低了12.75%,支持性证据质量降低了24.36%;误差分析将这些下降与过早的诊断闭合和低效的提问联系起来。总之,这些结果表明,静态的完整上下文基准可能会高估交互式证据搜寻环境中的性能,从而推动了对更安全的临床决策支持进行补充性的交互式评估。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在交互式临床诊断中,如何有效进行证据搜寻和诊断推理的问题。现有方法主要依赖静态的、完整的上下文信息进行评估,忽略了临床实践中医生需要主动询问、收集证据并逐步缩小诊断范围的过程。这种静态评估方式可能高估了LLM在实际临床应用中的性能,无法真实反映其在不确定性下的表现。
核心思路:论文的核心思路是构建一个模拟真实临床诊断场景的交互式环境,即OSCE(Objective Structured Clinical Examination)启发的标准化病人模拟器。通过模拟医生与病人之间的对话,评估LLM在主动提问、收集证据、进行诊断推理方面的能力。这种交互式评估方式更贴近实际临床场景,能够更准确地反映LLM的真实性能。
技术框架:该研究的技术框架主要包含以下几个部分:1) 标准化病人模拟器:模拟真实的病人,能够根据LLM的提问提供相应的回答。2) 诊断基准:包含一系列临床案例,每个案例都有明确的诊断目标和相关的病史信息。3) 评估指标:包括诊断准确率和支持性证据质量,用于评估LLM的诊断能力和证据搜寻能力。4) LLM模型:选择多个LLM模型进行实验,评估它们在交互式诊断任务中的表现。
关键创新:该论文的关键创新在于构建了一个可控、可复现的交互式诊断评估环境。与以往的静态评估方法相比,该方法能够更真实地模拟临床诊断过程,更准确地评估LLM在主动证据搜寻和诊断推理方面的能力。此外,论文还提出了支持性证据质量这一新的评估指标,用于衡量LLM在证据搜寻过程中的效率和有效性。
关键设计:在标准化病人模拟器的设计上,论文采用了基于规则和基于模型的两种方法。基于规则的方法预先定义了病人对不同问题的回答,而基于模型的方法则利用LLM生成回答。在评估指标的设计上,诊断准确率采用标准的分类准确率,而支持性证据质量则通过计算LLM提出的问题与正确诊断相关的程度来衡量。具体的技术细节,例如损失函数和网络结构,取决于所使用的LLM模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在交互式证据搜寻场景下,LLM的诊断准确率相比于完整上下文评估降低了12.75%,支持性证据质量降低了24.36%。这些结果表明,静态评估方法可能高估了LLM在实际临床应用中的性能。误差分析表明,诊断准确率的下降与过早的诊断闭合和低效的提问有关。
🎯 应用场景
该研究成果可应用于开发更安全、更可靠的临床决策支持系统。通过交互式评估,可以更好地了解LLM在实际临床场景中的优势和不足,从而有针对性地改进模型,提高其在诊断方面的准确性和效率。此外,该研究提出的OSCE模拟器和诊断基准可以作为评估和比较不同LLM在临床诊断方面性能的通用工具。
📄 摘要(原文)
Large language models perform well on static medical examinations, yet clinical diagnosis often requires iterative evidence gathering under uncertainty. Building on prior interactive evaluation efforts, we introduce an OSCE-inspired standardized patient simulator and a controlled, reproducible benchmark for active diagnostic inquiry. Across 468 cases and 15 models in our protocol, we observe that multi-turn evidence seeking reduces diagnostic accuracy by 12.75% and lowers supporting-evidence quality by 24.36% relative to full-context evaluation; error analyses associate these drops with premature diagnostic closure and inefficient questioning. Together, these results suggest that static full-context benchmarks may overestimate performance in interactive evidence-seeking settings, motivating complementary interactive assessment for safer clinical decision support.