Building the EHR Foundation Model via Next Event Prediction

作者: Zekai Chen, Arda Pekis, Kevin Brown

分类: cs.AI, cs.CL, q-bio.OT

发布日期: 2025-09-29

💡 一句话要点

提出基于事件预测的EHR基础模型，提升LLM在临床时序推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电子病历 时间序列预测 大型语言模型 临床事件预测 自回归模型

📋 核心要点

传统EHR建模方法难以有效捕捉电子病历中蕴含的时序动态信息，限制了模型性能。
论文提出下一事件预测(NEP)框架，通过自回归微调LLM，显式建模临床事件序列中的时间依赖关系。
实验结果表明，NEP在肿瘤生存预测和临床诊断任务中显著优于现有EHR模型和通用LLM。

📝 摘要（中文）

电子病历(EHRs)包含丰富的时序动态信息，而传统的编码方法未能充分捕捉这些信息。大型语言模型(LLMs)在EHR建模方面展现出潜力，但难以推理连续的临床事件和时间依赖性。我们提出了下一事件预测(NEP)框架，通过在临床事件序列上进行自回归微调，增强LLMs的时间推理能力。通过将EHRs重新构建为带时间戳的事件链并预测未来的医疗事件，NEP显式地建模了疾病进展模式和因果关系。在肿瘤生存预测和临床诊断任务上的大量评估表明，NEP具有优越性，在时间推理任务中，其AUROC比专门的EHR模型高4.6%，C-index比通用LLMs高7.2%。我们的分析揭示了双重优势：最先进的预测精度以及与已知疾病通路相一致的临床可解释的注意力模式。

🔬 方法详解

问题定义：现有方法难以充分利用EHR数据中的时序信息，导致模型在预测和诊断任务中表现不佳。特别是，大型语言模型虽然具有强大的建模能力，但在处理临床事件序列和时间依赖关系方面存在挑战。因此，如何有效地利用EHR数据中的时序信息，提升模型在临床任务中的性能，是本文要解决的核心问题。

核心思路：本文的核心思路是通过下一事件预测（NEP）任务，让LLM学习EHR数据中的时序模式和因果关系。具体来说，将EHR数据表示为带时间戳的事件序列，并训练LLM预测序列中的下一个事件。通过这种方式，模型可以显式地学习疾病的进展模式和事件之间的依赖关系，从而提升其时间推理能力。

技术框架：NEP框架主要包含以下几个步骤：1) EHR数据预处理：将原始EHR数据转换为带时间戳的事件序列。2) 模型构建：使用LLM作为基础模型，并添加一个事件预测层。3) 模型训练：使用自回归的方式训练模型，即给定一个事件序列，预测下一个事件。4) 模型评估：在各种临床任务上评估模型的性能，例如肿瘤生存预测和临床诊断。

关键创新：本文的关键创新在于提出了下一事件预测（NEP）任务，并将其应用于EHR建模。与传统的EHR建模方法相比，NEP能够更有效地利用EHR数据中的时序信息，从而提升模型在临床任务中的性能。此外，本文还发现，通过NEP训练的模型具有更好的可解释性，其注意力模式与已知的疾病通路相一致。

关键设计：在模型训练方面，使用了交叉熵损失函数来衡量预测事件与真实事件之间的差异。在数据预处理方面，对EHR数据进行了清洗和标准化，并使用了时间分箱技术来处理时间戳。此外，还探索了不同的LLM架构和训练策略，以找到最佳的模型配置。

📊 实验亮点

实验结果表明，NEP在肿瘤生存预测和临床诊断任务中显著优于现有EHR模型和通用LLM。具体来说，在肿瘤生存预测任务中，NEP的C-index比通用LLM高7.2%。在临床诊断任务中，NEP的AUROC比专门的EHR模型高4.6%。这些结果表明，NEP能够有效地利用EHR数据中的时序信息，从而提升模型在临床任务中的性能。

🎯 应用场景

该研究成果可应用于多种临床场景，例如疾病风险预测、个性化治疗方案推荐、临床决策支持等。通过更准确地预测患者的未来健康状况，医生可以更好地制定治疗计划，提高患者的生存率和生活质量。此外，该模型的可解释性有助于医生理解疾病的进展模式，从而更好地进行临床研究。

📄 摘要（原文）

Electronic Health Records (EHRs) contain rich temporal dynamics that conventional encoding approaches fail to adequately capture. While Large Language Models (LLMs) show promise for EHR modeling, they struggle to reason about sequential clinical events and temporal dependencies. We propose Next Event Prediction (NEP), a framework that enhances LLMs' temporal reasoning through autoregressive fine-tuning on clinical event sequences. By reformulating EHRs as timestamped event chains and predicting future medical events, NEP explicitly models disease progression patterns and causal relationships. Extensive evaluations across oncology survival prediction and clinical diagnosis tasks demonstrate NEP's superiority, outperforming specialized EHR models by 4.6% AUROC and general-purpose LLMs by 7.2% C-index in temporal reasoning tasks. Our analyses reveal dual benefits: state-of-the-art prediction accuracy combined with clinically interpretable attention patterns that align with known disease pathways.

Building the EHR Foundation Model via Next Event Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册