Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support

作者: Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu, Lu Gan

分类: cs.AI

发布日期: 2026-05-21

💡 一句话要点

提出OSCE模拟器与诊断基准，揭示LLM在交互式临床诊断中证据搜寻的不足

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床决策支持 交互式诊断 证据搜寻 标准化病人模拟器

📋 核心要点

现有医学诊断的LLM评估主要依赖静态数据，忽略了临床诊断中迭代证据收集的重要性。
构建了OSCE启发的标准化病人模拟器和诊断基准，用于评估LLM在主动证据搜寻中的表现。
实验表明，多轮证据搜寻降低了诊断准确率和证据质量，揭示了LLM在交互式诊断中的不足。

📝 摘要（中文）

大型语言模型在静态医学检查中表现出色，但临床诊断通常需要在不确定性下进行迭代式证据收集。本文在先前的交互式评估工作基础上，引入了一个受OSCE启发的标准化病人模拟器，以及一个可控、可复现的用于主动诊断询问的基准。在我们的协议中，跨越468个案例和15个模型，我们观察到多轮证据搜寻相对于完整上下文评估，诊断准确率降低了12.75%，支持性证据质量降低了24.36%；误差分析将这些下降与过早的诊断闭合和低效的提问联系起来。总之，这些结果表明，静态的完整上下文基准可能会高估交互式证据搜寻环境中的性能，从而推动了对更安全的临床决策支持进行补充性的交互式评估。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在交互式临床诊断中，如何有效进行证据搜寻和诊断推理的问题。现有方法主要依赖静态的、完整的上下文信息进行评估，忽略了临床实践中医生需要主动询问、收集证据并逐步缩小诊断范围的过程。这种静态评估方式可能高估了LLM在实际临床应用中的性能，无法真实反映其在不确定性下的表现。

核心思路：论文的核心思路是构建一个模拟真实临床诊断场景的交互式环境，即OSCE（Objective Structured Clinical Examination）启发的标准化病人模拟器。通过模拟医生与病人之间的对话，评估LLM在主动提问、收集证据、进行诊断推理方面的能力。这种交互式评估方式更贴近实际临床场景，能够更准确地反映LLM的真实性能。

技术框架：该研究的技术框架主要包含以下几个部分：1) 标准化病人模拟器：模拟真实的病人，能够根据LLM的提问提供相应的回答。2) 诊断基准：包含一系列临床案例，每个案例都有明确的诊断目标和相关的病史信息。3) 评估指标：包括诊断准确率和支持性证据质量，用于评估LLM的诊断能力和证据搜寻能力。4) LLM模型：选择多个LLM模型进行实验，评估它们在交互式诊断任务中的表现。

关键创新：该论文的关键创新在于构建了一个可控、可复现的交互式诊断评估环境。与以往的静态评估方法相比，该方法能够更真实地模拟临床诊断过程，更准确地评估LLM在主动证据搜寻和诊断推理方面的能力。此外，论文还提出了支持性证据质量这一新的评估指标，用于衡量LLM在证据搜寻过程中的效率和有效性。

关键设计：在标准化病人模拟器的设计上，论文采用了基于规则和基于模型的两种方法。基于规则的方法预先定义了病人对不同问题的回答，而基于模型的方法则利用LLM生成回答。在评估指标的设计上，诊断准确率采用标准的分类准确率，而支持性证据质量则通过计算LLM提出的问题与正确诊断相关的程度来衡量。具体的技术细节，例如损失函数和网络结构，取决于所使用的LLM模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在交互式证据搜寻场景下，LLM的诊断准确率相比于完整上下文评估降低了12.75%，支持性证据质量降低了24.36%。这些结果表明，静态评估方法可能高估了LLM在实际临床应用中的性能。误差分析表明，诊断准确率的下降与过早的诊断闭合和低效的提问有关。

🎯 应用场景

该研究成果可应用于开发更安全、更可靠的临床决策支持系统。通过交互式评估，可以更好地了解LLM在实际临床场景中的优势和不足，从而有针对性地改进模型，提高其在诊断方面的准确性和效率。此外，该研究提出的OSCE模拟器和诊断基准可以作为评估和比较不同LLM在临床诊断方面性能的通用工具。

📄 摘要（原文）

Large language models perform well on static medical examinations, yet clinical diagnosis often requires iterative evidence gathering under uncertainty. Building on prior interactive evaluation efforts, we introduce an OSCE-inspired standardized patient simulator and a controlled, reproducible benchmark for active diagnostic inquiry. Across 468 cases and 15 models in our protocol, we observe that multi-turn evidence seeking reduces diagnostic accuracy by 12.75% and lowers supporting-evidence quality by 24.36% relative to full-context evaluation; error analyses associate these drops with premature diagnostic closure and inefficient questioning. Together, these results suggest that static full-context benchmarks may overestimate performance in interactive evidence-seeking settings, motivating complementary interactive assessment for safer clinical decision support.

Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理