CliCARE: Grounding Large Language Models in Clinical Guidelines for Decision Support over Longitudinal Cancer Electronic Health Records
作者: Dongchen Li, Jitao Liang, Wei Li, Xiaoyu Wang, Longbing Cao, Kun Yu
分类: cs.CL, cs.AI
发布日期: 2025-07-30 (更新: 2026-01-09)
备注: Accepted in AAAI Conference on Artificial Intelligence (AAAI-26, Oral)
💡 一句话要点
CliCARE:将大型语言模型与临床指南相结合,为纵向癌症电子病历提供决策支持
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床决策支持 电子病历 知识图谱 癌症 时间序列分析 检索增强生成
📋 核心要点
- 现有方法难以处理癌症电子病历的长期性和碎片化,导致时间分析不准确,影响临床决策支持。
- CliCARE将电子病历转换为时间知识图,并与临床指南知识图对齐,实现基于证据的决策支持。
- 实验表明,CliCARE在大型纵向数据集上显著优于现有方法,并与肿瘤科医生的评估高度相关。
📝 摘要(中文)
大型语言模型(LLM)通过综合复杂的纵向癌症电子病历(EHRs),在改善临床决策支持和减少医生职业倦怠方面具有巨大潜力。然而,它们在该关键领域的实施面临三个主要挑战:无法有效处理患者记录的长度和碎片化性质以进行准确的时间分析;临床幻觉的风险增加,因为传统的 grounding 技术(如检索增强生成RAG)未能充分结合面向过程的临床指南;以及不可靠的评估指标,阻碍了肿瘤学中AI系统的验证。为了解决这些问题,我们提出了CliCARE,一个将大型语言模型与临床指南相结合的框架,用于纵向癌症电子病历的决策支持。该框架通过将非结构化的纵向EHRs转换为患者特定的时间知识图(TKGs)来捕获长期依赖关系,然后通过将这些真实世界的患者轨迹与规范的指南知识图对齐来 grounding 决策支持过程。这种方法通过生成高保真度的临床摘要和可操作的建议,为肿瘤科医生提供基于证据的决策支持。我们使用来自中国私人癌症数据集和公共英文MIMIC-IV数据集的大规模纵向数据验证了我们的框架。在这些设置中,CliCARE显著优于基线,包括领先的长上下文LLM和知识图增强的RAG方法。我们结果的临床有效性得到了稳健的评估协议的支持,该协议表明与肿瘤科医生的评估具有高度相关性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在处理纵向癌症电子病历时面临的挑战,包括难以处理长文本和碎片化数据,容易产生临床幻觉,以及缺乏可靠的评估指标。现有方法,如传统的检索增强生成(RAG),无法充分利用临床指南,导致决策支持的准确性和可靠性不足。
核心思路:论文的核心思路是将非结构化的纵向电子病历转换为患者特定的时间知识图(TKGs),以捕获长期依赖关系。然后,通过将这些患者轨迹与规范的临床指南知识图对齐,实现对决策支持过程的grounding。这种方法旨在提供基于证据的决策支持,减少临床幻觉,并提高决策的准确性。
技术框架:CliCARE框架包含以下主要模块:1) 将非结构化电子病历转换为患者特定的时间知识图(TKGs);2) 构建规范的临床指南知识图;3) 将患者TKGs与临床指南知识图对齐,以grounding决策支持过程;4) 生成高保真度的临床摘要和可操作的建议。整个流程旨在为肿瘤科医生提供基于证据的决策支持。
关键创新:该论文的关键创新在于将时间知识图和临床指南知识图相结合,用于grounding大型语言模型的决策支持过程。与传统的RAG方法相比,CliCARE能够更有效地利用临床指南,减少临床幻觉,并提供更准确的决策支持。此外,论文还提出了一个稳健的评估协议,用于验证AI系统在肿瘤学中的临床有效性。
关键设计:论文中关于时间知识图的构建、临床指南知识图的表示以及两者对齐的具体技术细节未知。论文中使用的损失函数、网络结构等技术细节也未知。
🖼️ 关键图片
📊 实验亮点
CliCARE在中文癌症数据集和英文MIMIC-IV数据集上进行了验证,显著优于现有基线方法,包括领先的长上下文LLM和知识图增强的RAG方法。实验结果表明,CliCARE生成的决策建议与肿瘤科医生的评估具有高度相关性,验证了其临床有效性。具体的性能提升数据未知。
🎯 应用场景
CliCARE可应用于癌症治疗决策支持、个性化治疗方案制定、临床指南的自动化执行和患者预后预测等领域。该研究有助于提高临床决策的效率和准确性,减少医生负担,并改善患者的治疗效果。未来,该框架可以扩展到其他疾病领域,为更广泛的临床决策提供支持。
📄 摘要(原文)
Large Language Models (LLMs) hold significant promise for improving clinical decision support and reducing physician burnout by synthesizing complex, longitudinal cancer Electronic Health Records (EHRs). However, their implementation in this critical field faces three primary challenges: the inability to effectively process the extensive length and fragmented nature of patient records for accurate temporal analysis; a heightened risk of clinical hallucination, as conventional grounding techniques such as Retrieval-Augmented Generation (RAG) do not adequately incorporate process-oriented clinical guidelines; and unreliable evaluation metrics that hinder the validation of AI systems in oncology. To address these issues, we propose CliCARE, a framework for Grounding Large Language Models in Clinical Guidelines for Decision Support over Longitudinal Cancer Electronic Health Records. The framework operates by transforming unstructured, longitudinal EHRs into patient-specific Temporal Knowledge Graphs (TKGs) to capture long-range dependencies, and then grounding the decision support process by aligning these real-world patient trajectories with a normative guideline knowledge graph. This approach provides oncologists with evidence-grounded decision support by generating a high-fidelity clinical summary and an actionable recommendation. We validated our framework using large-scale, longitudinal data from a private Chinese cancer dataset and the public English MIMIC-IV dataset. In these settings, CliCARE significantly outperforms baselines, including leading long-context LLMs and Knowledge Graph-enhanced RAG methods. The clinical validity of our results is supported by a robust evaluation protocol, which demonstrates a high correlation with assessments made by oncologists.