MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning

📄 arXiv: 2605.26567v1 📥 PDF

作者: Yuhao Shen, Lang Cao, Simo Du, Yuqing Wang, Juexiao Zhou, Hao Peng, Yue Guo

分类: cs.AI

发布日期: 2026-05-26


💡 一句话要点

MedGuideX:将可执行指南的决策逻辑融入大型语言模型,用于临床推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床推理 大型语言模型 临床实践指南 决策逻辑 医学人工智能

📋 核心要点

  1. 现有方法未能充分利用临床实践指南(CPGs)中蕴含的程序性决策结构,导致临床推理能力不足。
  2. 提出一种指南衍生的训练流程,将CPG建议转化为可执行的临床决策逻辑,生成问答数据以训练医学LLM。
  3. MedGuideX在临床推理基准测试中平均准确率相对提高了10.28%,并获得了医生对推理步骤和理由的积极评价。

📝 摘要(中文)

临床实践指南(CPGs)包含了循证决策逻辑,临床医生通过评估患者变量、条件标准和推荐规则来应用这些逻辑。然而,现有方法通常将CPGs用作自由文本训练数据或检索来源,未能充分利用其程序性决策结构。为了更好地利用这种结构,我们引入了一种指南衍生的训练流程,该流程将CPG建议转化为可执行的临床决策逻辑,并使用它来生成事实性和反事实性的问答数据。这些数据教导模型支持指南的决策,以及决策如何在不同的患者条件下变化。在生成的数据上对医学LLM进行后训练,产生了MedGuideX。在四个临床推理基准测试中,MedGuideX的平均准确率相对提高了10.28%。医生评估进一步表明,MedGuideX更好地恢复了临床医生编写的推理步骤,并在忠实性、有效性、完整性和清晰度方面产生了医生首选的理由。总的来说,我们的结果表明,CPGs中的可执行决策逻辑可以转化为可扩展的监督,用于构建可靠的医学LLM。

🔬 方法详解

问题定义:现有方法在利用临床实践指南(CPGs)进行临床推理时,主要将其视为自由文本数据或检索来源,忽略了CPGs中蕴含的结构化决策逻辑。这导致模型无法有效学习和应用CPGs中的决策规则,限制了其临床推理能力。痛点在于无法将CPGs的程序性决策结构转化为可用于训练LLM的有效监督信号。

核心思路:核心思路是将CPGs中的推荐转化为可执行的临床决策逻辑,并利用这些逻辑生成高质量的问答数据。通过让模型学习在不同患者条件下做出符合指南的决策,以及理解决策变化的原因,从而提高模型的临床推理能力。这种方法充分利用了CPGs的结构化信息,避免了简单地将CPGs视为自由文本的局限性。

技术框架:整体框架包含以下几个主要阶段:1) 将CPGs中的推荐转化为可执行的临床决策逻辑;2) 使用这些逻辑生成事实性和反事实性的问答数据;3) 使用生成的数据对医学LLM进行后训练,得到MedGuideX;4) 在临床推理基准测试中评估MedGuideX的性能,并进行医生评估。

关键创新:最重要的技术创新点在于提出了一种将CPGs转化为可执行决策逻辑的训练流程,并利用该逻辑生成高质量的问答数据。与现有方法相比,该方法能够更有效地利用CPGs的结构化信息,为LLM提供更强的监督信号。本质区别在于从自由文本利用转变为结构化决策逻辑的利用。

关键设计:关键设计包括:1) 如何将CPGs中的推荐转化为可执行的决策逻辑(具体转化方法未知);2) 如何生成高质量的事实性和反事实性问答数据(生成策略未知);3) 后训练阶段使用的损失函数和训练策略(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MedGuideX在四个临床推理基准测试中,平均准确率相对提高了10.28%。医生评估表明,MedGuideX能够更好地恢复临床医生编写的推理步骤,并在忠实性、有效性、完整性和清晰度方面产生医生首选的理由。这些结果表明,MedGuideX能够更准确、更可靠地进行临床推理。

🎯 应用场景

MedGuideX可应用于辅助临床决策支持系统,帮助医生快速准确地制定治疗方案。通过将最新的临床实践指南融入LLM,可以提高医疗服务的质量和效率,减少医疗错误,并为患者提供个性化的治疗建议。未来,该技术有望扩展到其他医疗领域,例如疾病诊断、药物研发等。

📄 摘要(原文)

Clinical practice guidelines (CPGs) encode evidence-based decision logic that clinicians apply by evaluating patient variables, conditional criteria, and recommendation rules. However, existing methods often use CPGs as free-text training data or retrieval sources, underutilizing their procedural decision structure. To better exploit this structure, we introduce a guideline-derived training pipeline that transforms CPG recommendations into executable clinical decision logic and uses it to generate factual and counterfactual question-answering data. Theses data teach models both guideline-supported decisions and how decisions change under different patient conditions. Post-training a medical LLM on the generated data yields MedGuideX. Across four clinical reasoning benchmarks, MedGuideX achieves a 10.28% relative improvement in average accuracy. Physician evaluation further shows that MedGuideX better recovers clinician authored reasoning steps and produces physician-preferred rationales in faithfulness, validity, completeness, and clarity. Overall, our results show that executable decision logic from CPGs can be transformed into scalable supervision for building reliable medical LLMs.