Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction

📄 arXiv: 2603.24562v1 📥 PDF

作者: Haresh Rengaraj Rajamohan, Xiang Gao, Weicheng Zhu, Shih-Lun Huang, Long Chen, Gabe Schulman, Huizhen Jin, Shengduo Li, Yixuan Wang, Huidi Yang, Kyunghyun Cho, Cem M. Deniz, Narges Razavian

分类: cs.LG

发布日期: 2026-03-25


💡 一句话要点

RAVEN:基于复发感知的下一访问预测,扩展临床记录基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子健康记录 预训练模型 下一访问预测 复发感知 临床预测

📋 核心要点

  1. 现有方法在处理电子健康记录(EHR)时,未能充分利用大规模预训练的潜力,且缺乏对重复事件的有效处理。
  2. RAVEN通过复发感知的下一访问事件预测,学习生成token化的临床事件,并引入正则化来处理重复事件,从而提升预测准确性。
  3. 实验表明,RAVEN在零样本疾病预测中,性能媲美微调的Transformer模型,并优于传统的下一token预测方法,且具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为RAVEN的新型生成式预训练策略,用于处理序列化的电子健康记录(EHR)数据。RAVEN基于复发感知的下一访问事件预测,利用超过一百万独立个体的EHR数据集,学习自回归地生成token化的临床事件,以预测下一次就诊的情况。该模型引入了对重复事件预测的正则化,并强调了EHR基础模型评估中的一个关键陷阱:重复事件token可能会夸大性能指标,因为模型没有区分新发事件和后续事件。此外,本文还实证研究了数据受限、计算饱和状态下的扩展行为,表明在数据量没有相应增加的情况下,简单地增加模型大小并非最优选择。通过对多种疾病发病率的零样本预测评估,RAVEN的性能可与完全微调的基于表征的Transformer模型相媲美,并优于广泛使用的基于模拟的下一token方法。最后,在没有额外参数更新的情况下,RAVEN可以推广到临床代码映射和特征覆盖存在差距的外部患者群体。

🔬 方法详解

问题定义:论文旨在解决如何有效利用大规模电子健康记录(EHR)数据进行预训练,从而提升临床预测任务的性能。现有方法在处理EHR数据时,往往忽略了事件的复发性,并且在评估时容易受到重复事件token的影响,导致性能虚高。此外,简单地增加模型规模而不增加数据量,并不能有效提升性能。

核心思路:论文的核心思路是提出一种复发感知的下一访问事件预测方法(RAVEN)。RAVEN通过学习自回归地生成token化的临床事件,预测患者下一次就诊时可能发生的事件。通过引入对重复事件预测的正则化,RAVEN能够更好地区分新发事件和后续事件,从而避免性能虚高。

技术框架:RAVEN的整体框架是一个自回归生成模型,输入是患者的历史临床事件序列,输出是预测的下一次就诊的临床事件序列。模型主要包含以下模块:1) 输入嵌入层:将临床事件token转换为向量表示;2) 自回归模型:使用Transformer或其他序列模型学习事件之间的依赖关系;3) 输出层:预测下一次就诊的临床事件token。

关键创新:RAVEN的关键创新在于:1) 提出了复发感知的预训练策略,能够有效处理EHR数据中的重复事件;2) 引入了对重复事件预测的正则化,避免了性能虚高;3) 实验表明,在数据受限的情况下,增加数据量比单纯增加模型规模更有效。

关键设计:RAVEN的关键设计包括:1) 使用交叉熵损失函数来训练模型,目标是最大化预测正确事件token的概率;2) 引入L1或L2正则化来惩罚对重复事件的过度预测;3) 探索了不同规模的Transformer模型,并分析了数据量和模型规模之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAVEN在零样本疾病预测任务中,性能与完全微调的基于表征的Transformer模型相媲美,并优于广泛使用的基于模拟的下一token方法。此外,RAVEN在外部患者群体上的泛化能力也得到了验证,即使在临床代码映射和特征覆盖存在差距的情况下,仍然能够取得良好的性能。

🎯 应用场景

RAVEN具有广泛的应用前景,可用于疾病风险预测、个性化治疗方案推荐、临床决策支持等领域。通过对大规模EHR数据进行预训练,RAVEN能够学习到丰富的临床知识,从而提升各种临床预测任务的性能。此外,RAVEN的泛化能力使其能够应用于不同的患者群体和医疗机构,具有重要的实际应用价值。

📄 摘要(原文)

While large-scale pretraining has revolutionized language modeling, its potential remains underexplored in healthcare with structured electronic health records (EHRs). We present RAVEN, a novel generative pretraining strategy for sequential EHR data based on Recurrence-Aware next-Visit EveNt prediction. Leveraging a dataset of over one million unique individuals, our model learns to autoregressively generate tokenized clinical events for the next visit conditioned on patient history. We introduce regularization on predicting repeated events and highlight a key pitfall in EHR-based foundation model evaluations: repeated event tokens can inflate performance metrics when new onsets are not distinguished from subsequent occurrences. Furthermore, we empirically investigate the scaling behaviors in a data-constrained, compute-saturated regime, showing that simply increasing model size is suboptimal without commensurate increases in data volume. We evaluate our model via zero-shot prediction for forecasting the incidence of a diverse set of diseases, where it rivals fully fine-tuned representation-based Transformer models and outperforms widely used simulation-based next-token approaches. Finally, without additional parameter updates, we show that RAVEN can generalize to an external patient cohort under lossy clinical code mappings and feature coverage gaps.