Guideline2Graph: Profile-Aware Multimodal Parsing for Executable Clinical Decision Graphs

📄 arXiv: 2604.02477 📥 PDF

作者: Onur Selim Kilic, Yeti Z. Gurbuz, Cem O. Yaldiz, Afra Nawar, Etrit Haxholli, Ogul Can, Eli Waxman

分类: cs.CV, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出 Guideline2Graph,将临床指南解析为可执行的临床决策图,显著提升解析精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床决策支持 临床指南解析 多模态文档处理 决策图生成 分解优先策略

📋 核心要点

  1. 现有方法难以将临床指南转化为可执行的决策图,尤其是在处理跨页连续性和复杂分支结构时。
  2. Guideline2Graph 采用分解优先的策略,通过拓扑感知分块和接口约束图生成,确保跨页连续性和结构一致性。
  3. 实验表明,该方法在边和三元组的精确率和召回率上均有显著提升,验证了其在临床决策图生成方面的有效性。

📝 摘要(中文)

临床实践指南是冗长的多模态文档,其分支推荐难以转换为可执行的临床决策支持(CDS),并且一次性解析常常破坏跨页连续性。现有的LLM/VLM提取器大多是局部或以文本为中心,未能充分指定章节接口,也未能将完整文档的跨页控制流整合到一个连贯的决策图中。我们提出了一种分解优先的流程,通过拓扑感知分块、接口约束分块图生成和保留溯源信息的全局聚合,将完整的指南证据转换为可执行的临床决策图。该流程不依赖于单次生成,而是使用显式的入口/终端接口和语义去重来保持跨页连续性,同时保持诱导控制流的可审计性和结构一致性。我们在一个经过判定的前列腺指南基准上进行了评估,该基准具有匹配的输入和跨比较方法的相同底层VLM骨干网络。在完整的合并图上,我们的方法将边和三元组的精确率/召回率从现有模型的19.6%/16.1%提高到69.0%/87.5%,而节点召回率从78.1%提高到93.8%。这些结果支持在此基准上进行分解优先、可审计的指南到CDS转换,但目前的证据仍然仅限于一个经过判定的前列腺指南,并促使进行更广泛的多指南验证。

🔬 方法详解

问题定义:现有方法在将临床实践指南转换为可执行临床决策支持系统时,面临着跨页连续性丢失和结构不一致的问题。传统的单次解析方法难以处理指南中复杂的分支结构和跨页引用,导致生成的决策图不准确或不完整。此外,现有的LLM/VLM提取器通常侧重于局部文本信息,忽略了指南的整体拓扑结构和章节接口,从而限制了其性能。

核心思路:Guideline2Graph 的核心思路是采用“分解优先”的策略,将复杂的指南解析任务分解为多个子任务,包括拓扑感知分块、接口约束分块图生成和全局聚合。通过显式地定义章节的入口和终端接口,并进行语义去重,该方法能够有效地保持跨页连续性,并确保生成的决策图在结构上的一致性和可审计性。

技术框架:Guideline2Graph 的整体框架包含以下几个主要阶段:1) 拓扑感知分块:将指南文档分割成具有明确语义的块,并识别每个块的入口和终端接口。2) 接口约束分块图生成:基于分块结果,生成局部决策图,并利用接口信息约束图的连接,确保跨页控制流的正确性。3) 溯源信息保留的全局聚合:将局部决策图聚合成一个完整的全局决策图,并保留每个节点的溯源信息,以便进行审计和验证。

关键创新:Guideline2Graph 的关键创新在于其“分解优先”的策略和对章节接口的显式建模。与传统的单次解析方法相比,该方法能够更好地处理指南中的复杂结构和跨页引用,从而提高决策图的准确性和完整性。此外,该方法还通过保留溯源信息,增强了决策图的可审计性。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,该方法强调了对章节接口的显式建模和语义去重的重要性。具体实现可能涉及到使用特定的自然语言处理技术来识别章节的入口和终端接口,并使用图神经网络或其他图结构学习方法来生成和聚合决策图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Guideline2Graph 在前列腺指南基准测试中取得了显著的性能提升。与现有模型相比,该方法将边和三元组的精确率/召回率从19.6%/16.1%提高到69.0%/87.5%,节点召回率从78.1%提高到93.8%。这些数据表明,Guideline2Graph 在临床决策图生成方面具有显著优势。

🎯 应用场景

Guideline2Graph 有潜力广泛应用于临床决策支持系统,帮助医生更准确、高效地制定治疗方案。通过将复杂的临床指南转化为可执行的决策图,该方法可以减少人为错误,提高医疗质量,并为患者提供个性化的治疗建议。未来,该技术还可以应用于其他领域的指南解析和自动化决策。

📄 摘要(原文)

Clinical practice guidelines are long, multimodal documents whose branching recommendations are difficult to convert into executable clinical decision support (CDS), and one-shot parsing often breaks cross-page continuity. Recent LLM/VLM extractors are mostly local or text-centric, under-specifying section interfaces and failing to consolidate cross-page control flow across full documents into one coherent decision graph. We present a decomposition-first pipeline that converts full-guideline evidence into an executable clinical decision graph through topology-aware chunking, interface-constrained chunk graph generation, and provenance-preserving global aggregation. Rather than relying on single-pass generation, the pipeline uses explicit entry/terminal interfaces and semantic deduplication to preserve cross-page continuity while keeping the induced control flow auditable and structurally consistent. We evaluate on an adjudicated prostate-guideline benchmark with matched inputs and the same underlying VLM backbone across compared methods. On the complete merged graph, our approach improves edge and triplet precision/recall from $19.6\%/16.1\%$ in existing models to $69.0\%/87.5\%$, while node recall rises from $78.1\%$ to $93.8\%$. These results support decomposition-first, auditable guideline-to-CDS conversion on this benchmark, while current evidence remains limited to one adjudicated prostate guideline and motivates broader multi-guideline validation.