Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims
作者: Fan Ma, Yuntian Liu, Xiang Lan, Weipeng Zhou, Jun Ni, Mauro Giuffrè, Lingfei Qian, Xueqing Peng, Yujia Zhou, Ruey-Ling Weng, Huan He, Lu Li, Qingyu Chen, Andrew Loza, Laila Rasmy, Degui Zhi, Yuan Lu, Chenjie Zeng, Joshua C Denny, Lee Schwamm, Daniella Meeker, Lucila Ohno-Machado, Yong Chen, Hua Xu
分类: cs.AI, cs.CL
发布日期: 2026-05-04
💡 一句话要点
提出ReClaim:基于大规模医疗理赔数据的医疗健康领域预训练模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医疗理赔数据 预训练模型 Transformer模型 疾病预测 真实世界证据 医疗支出预测 生成式模型
📋 核心要点
- 现有方法在利用大规模医疗理赔数据进行疾病预测和RWE分析方面存在局限性,尤其是在罕见病预测和财务结果建模方面。
- ReClaim通过在大规模医疗理赔数据上预训练生成式Transformer模型,学习疾病、治疗、药物和支出的纵向轨迹,从而捕捉更丰富的医疗信息。
- 实验结果表明,ReClaim在疾病预测、医疗支出预测和目标试验模拟方面均优于现有方法,尤其在罕见病预测和降低系统偏差方面提升显著。
📝 摘要(中文)
本研究提出了ReClaim,一个基于海量真实世界数据(RWD)的生成式Transformer模型,旨在挖掘医疗理赔数据的潜力。ReClaim在MarketScan理赔数据集中超过2亿患者的438亿条医疗事件上从头开始训练,时间跨度为2008-2022年。该模型能够对诊断、治疗、药物和支出的纵向轨迹进行建模,并扩展到1.4亿、7亿和17亿参数。在超过1000个疾病预测任务中,ReClaim的平均AUC达到75.6%,显著优于疾病特异性的LightGBM(66.3%)和基于Transformer的Delphi模型(69.4%),尤其在罕见病预测方面优势明显。这一优势在回顾性和前瞻性评估以及两个独立数据集的外部验证中均得到证实。性能随模型规模单调提升,后训练相比预训练提升了13.8个百分点。除了疾病预测,ReClaim还捕捉了财务结果,并改进了真实世界证据(RWE)分析:在医疗支出预测方面,相对于LightGBM,解释方差从0.28提高到0.37;在目标试验模拟中,相对于Delphi,系统偏差平均降低了72%。这些结果表明,医疗理赔数据是医疗健康领域预训练模型的可扩展基底,并且学习到的表征可以跨越时间和数据源进行泛化,从而支持疾病监测、支出预测和RWE生成。
🔬 方法详解
问题定义:论文旨在解决如何有效利用大规模医疗理赔数据进行疾病预测、医疗支出预测以及真实世界证据(RWE)生成的问题。现有方法,如疾病特异性的LightGBM和基于Transformer的Delphi模型,在处理罕见病、捕捉财务结果以及减少系统偏差方面存在不足。这些方法无法充分利用理赔数据中蕴含的丰富信息,限制了其在医疗决策中的应用。
核心思路:论文的核心思路是利用大规模医疗理赔数据预训练一个生成式Transformer模型(ReClaim),使其能够学习疾病、治疗、药物和支出的纵向轨迹。通过在大规模数据上进行预训练,ReClaim能够捕捉到更丰富的医疗信息,从而提高疾病预测的准确性和RWE分析的可靠性。这种方法借鉴了自然语言处理领域预训练模型的成功经验,将其应用于医疗健康领域。
技术框架:ReClaim的整体架构是一个标准的Transformer模型,包括编码器和解码器。该模型以患者的医疗事件序列作为输入,包括诊断、治疗、药物和支出等信息。模型首先将这些事件嵌入到高维空间中,然后通过Transformer层进行处理,学习事件之间的关系。最后,模型输出下一个事件的概率分布,用于疾病预测、医疗支出预测等任务。模型训练分为预训练和后训练两个阶段。
关键创新:ReClaim的关键创新在于将生成式Transformer模型应用于大规模医疗理赔数据,并证明了其在疾病预测和RWE分析方面的有效性。与现有方法相比,ReClaim能够更好地捕捉疾病的纵向发展轨迹,从而提高预测准确性。此外,ReClaim还能够捕捉财务结果,并减少RWE分析中的系统偏差,使其更适用于医疗决策。
关键设计:ReClaim的关键设计包括:1) 使用大规模医疗理赔数据进行预训练,确保模型能够学习到丰富的医疗信息;2) 使用生成式Transformer模型,能够捕捉疾病的纵向发展轨迹;3) 通过后训练进一步提高模型在特定任务上的性能;4) 模型参数规模从1.4亿扩展到17亿,验证了模型性能随规模单调提升的趋势。损失函数采用标准的交叉熵损失函数,优化器采用AdamW。
🖼️ 关键图片
📊 实验亮点
ReClaim在超过1000个疾病预测任务中,平均AUC达到75.6%,显著优于疾病特异性的LightGBM(66.3%)和基于Transformer的Delphi模型(69.4%)。在医疗支出预测方面,ReClaim相对于LightGBM,解释方差从0.28提高到0.37。在目标试验模拟中,ReClaim相对于Delphi,系统偏差平均降低了72%。性能随模型规模单调提升,后训练相比预训练提升了13.8个百分点。
🎯 应用场景
ReClaim的应用场景广泛,包括疾病监测、医疗支出预测、药物研发和真实世界证据(RWE)生成。它可以帮助医疗机构更好地了解疾病的流行趋势,预测未来的医疗支出,加速药物研发过程,并为医疗决策提供更可靠的依据。此外,ReClaim还可以用于个性化医疗,根据患者的医疗历史预测其未来的健康风险,并制定相应的干预措施。
📄 摘要(原文)
Evidence derived from large-scale real-world data (RWD) is increasingly informing regulatory evaluation and healthcare decision-making. Administrative claims provide population-scale, longitudinal records of healthcare utilization, expenditure, and detailed coding of diagnoses, procedures, and medications, yet their potential as a substrate for healthcare foundation models remains largely unexplored. Here we present ReClaim, a generative transformer trained from scratch on 43.8 billion medical events from more than 200 million enrollees in the MarketScan claims data spanning 2008-2022. ReClaim models longitudinal trajectories across diagnoses, procedures, medications, and expenditure, and was scaled to 140 million, 700 million, and 1.7 billion parameters. Across over 1,000 disease-onset prediction tasks, ReClaim achieved a mean AUC of 75.6%, substantially outperforming disease-specific LightGBM (66.3%) and the transformer-based Delphi model (69.4%), with the largest gains for rare diseases. These advantages held across retrospective and prospective evaluations and in external validation on two independent datasets. Performance improved monotonically with scale, and post-training added 13.8 percentage points over pre-training alone. Beyond disease prediction, ReClaim captured financial outcomes and improved real-world evidence (RWE) analyses: for healthcare expenditure forecasting it increased explained variance from 0.28 to 0.37 relative to LightGBM, and in a target trial emulation it reduced systematic bias by 72% on average relative to Delphi. Together, these results establish administrative claims as a scalable substrate for healthcare foundation models and show that learned representations generalize across time periods and data sources, supporting disease surveillance, expenditure forecasting, and RWE generation.