DT-Transformer: A Foundation Model for Disease Trajectory Prediction on a Real-world Health System
作者: Yunying Zhu, Andrew R Weckstein, Kueiyu Joshua Lin, Jie Yang
分类: cs.LG, cs.CL
发布日期: 2026-05-14
备注: Work in Progress
💡 一句话要点
DT-Transformer:基于大规模真实健康系统数据的疾病轨迹预测基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 疾病轨迹预测 电子健康记录 Transformer模型 多中心数据 基础模型
📋 核心要点
- 现有疾病轨迹预测模型难以泛化到真实临床环境,且单中心数据无法捕捉完整的患者轨迹。
- DT-Transformer利用大规模多中心EHR数据进行训练,旨在构建更具泛化能力的疾病轨迹预测基础模型。
- 实验表明,DT-Transformer在多种疾病类别的预测中表现出色,验证了健康系统规模训练的有效性。
📝 摘要(中文)
准确的疾病轨迹预测对于早期干预、资源分配和改善长期预后至关重要。虽然电子健康记录(EHRs)提供了患者健康状况的丰富纵向视图,但基于特定研究队列训练的模型可能无法反映常规部署环境,而基于单家医院数据集训练的模型仅能捕捉到患者轨迹的片段。这突显了利用大型、多医院健康系统进行训练和验证的重要性,以更好地反映真实世界的临床复杂性。本文开发了DT-Transformer,一个基于麻省总医院布莱根(MGB)的170万患者的5710万条结构化EHR条目训练的基础模型,该系统横跨11家医院和广泛的门诊诊所网络。DT-Transformer在留出验证和前瞻性验证环境中均实现了强大的区分能力。在896个疾病类别中,下一次事件预测实现了0.871的年龄和性别分层AUC中位数,所有类别的AUC均超过0.5。这些结果支持将健康系统规模的训练作为适用于真实世界临床预测的基础模型的发展方向。
🔬 方法详解
问题定义:现有疾病轨迹预测模型存在两个主要痛点。一是模型通常基于精心策划的研究队列进行训练,与真实临床环境存在差异,导致泛化能力不足。二是单家医院的数据集仅能捕捉到患者疾病轨迹的片段,无法提供完整的纵向视图。因此,需要一种能够利用大规模、多中心数据进行训练的模型,以更好地反映真实世界的临床复杂性。
核心思路:本文的核心思路是利用Transformer架构,并将其应用于大规模多中心电子健康记录(EHR)数据,从而学习到疾病轨迹的通用表示。通过在包含大量患者和多种疾病的EHR数据上进行预训练,DT-Transformer能够捕捉到不同疾病之间的关联以及疾病进展的模式。这种预训练模型可以作为基础模型,用于下游的疾病预测任务。
技术框架:DT-Transformer的整体框架包括数据预处理、模型训练和模型评估三个主要阶段。首先,对来自多个医院的EHR数据进行清洗、标准化和编码,将其转换为模型可以处理的格式。然后,使用Transformer架构构建疾病轨迹预测模型,并在大规模EHR数据集上进行训练。最后,在留出验证集和前瞻性验证集上评估模型的性能。模型输入为患者历史就诊记录,输出为未来可能发生的疾病事件的概率分布。
关键创新:DT-Transformer的关键创新在于其利用大规模多中心EHR数据进行训练,从而构建了一个更具泛化能力的疾病轨迹预测基础模型。与以往基于单中心数据或特定疾病队列训练的模型相比,DT-Transformer能够更好地捕捉到真实世界临床环境中的复杂性和多样性。此外,该模型采用Transformer架构,能够有效地捕捉到疾病之间的长期依赖关系。
关键设计:DT-Transformer采用标准的Transformer编码器结构,输入是经过编码的患者就诊记录序列。模型使用交叉熵损失函数进行训练,目标是预测下一个可能发生的疾病事件。为了提高模型的泛化能力,采用了dropout和权重衰减等正则化技术。此外,还使用了masking策略,随机屏蔽一部分输入序列,迫使模型学习到更鲁棒的表示。
🖼️ 关键图片
📊 实验亮点
DT-Transformer在896个疾病类别中实现了0.871的年龄和性别分层AUC中位数,所有类别的AUC均超过0.5。这些结果表明,DT-Transformer在疾病轨迹预测方面具有强大的区分能力,并且能够泛化到不同的疾病类别。与基于单中心数据训练的模型相比,DT-Transformer在真实世界临床环境中的表现更加出色。
🎯 应用场景
DT-Transformer具有广泛的应用前景,可用于临床决策支持、疾病风险评估、个性化治疗方案制定和公共卫生监测。通过预测患者未来可能发生的疾病事件,医生可以提前采取干预措施,改善患者的预后。此外,该模型还可以用于识别高风险人群,从而实现更有效的资源分配和疾病预防。
📄 摘要(原文)
Accurate disease trajectory prediction is critical for early intervention, resource allocation, and improving long-term outcomes. While electronic health records (EHRs) provide a rich longitudinal view of patient health in clinical environments, models trained on curated research cohorts may not reflect routine deployment settings, and those trained on single-hospital datasets capture only fragments of each patient's trajectory. This highlights the importance of leveraging large, multi-hospital health systems for training and validation to better reflect real-world clinical complexity. In this work, we develop DT-Transformer, a foundation model trained on 57.1M structured EHR entries over 1.7M patients from Mass General Brigham (MGB), spanning 11 hospitals and a broad network of outpatient clinics. DT-Transformer achieves strong discrimination in both held-out and prospective validation settings. Next-event prediction achieves a median age- and sex-stratified AUC of 0.871 across 896 disease categories, with all categories exceeding AUC 0.5. These results support health system-scale training as a path toward foundation models suited to real-world clinical forecasting.