Toward Scalable Early Cancer Detection: Evaluating EHR-Based Predictive Models Against Traditional Screening Criteria

📄 arXiv: 2511.11293v2 📥 PDF

作者: Jiheum Park, Chao Pang, Tristan Y. Lee, Jeong Yun Yang, Jacob Berkowitz, Alexander Z. Wei, Nicholas Tatonetti

分类: cs.LG, q-bio.QM

发布日期: 2025-11-14 (更新: 2026-01-23)


💡 一句话要点

利用电子病历预测模型实现可扩展的早期癌症检测,优于传统筛查标准。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历 癌症预测 早期检测 机器学习 风险评估 临床决策支持 EHR基础模型

📋 核心要点

  1. 现有癌症筛查依赖狭隘标准,覆盖范围有限,难以有效识别高风险人群。
  2. 利用电子病历(EHR)数据构建预测模型,挖掘患者健康信息的早期癌症信号。
  3. 实验表明,EHR模型比传统风险因素更能有效富集高风险人群,提升癌症早期检测能力。

📝 摘要(中文)

当前癌症筛查指南仅涵盖少数癌症类型,并依赖于年龄或吸烟史等狭义标准来识别高风险人群。利用电子病历(EHR)的预测模型能够捕捉大规模纵向患者健康信息,为识别高风险群体提供更有效的工具,从而检测癌症的早期信号。大型语言模型和基础模型的最新进展进一步扩展了这种潜力,但EHR模型与当前筛查指南中使用的传统风险因素相比,其有效性证据仍然有限。本研究系统地评估了EHR预测模型与传统风险因素(包括基因突变和癌症家族史)在识别八种主要癌症(乳腺癌、肺癌、结直肠癌、前列腺癌、卵巢癌、肝癌、胰腺癌和胃癌)高风险个体方面的临床效用,使用了来自“All of Us”研究项目的数据,该项目整合了超过865,000名参与者的EHR、基因组和调查数据。即使采用基线建模方法,EHR模型在识别高风险个体中,真实癌症病例的富集程度也比单独使用传统风险因素高3到6倍,无论后者是单独使用还是作为补充工具。EHR基础模型是一种基于全面患者轨迹训练的先进方法,进一步提高了26种癌症的预测性能,证明了EHR预测模型在支持更精确和可扩展的早期检测策略方面的临床潜力。

🔬 方法详解

问题定义:论文旨在解决传统癌症筛查方法依赖的风险因素过于狭隘,导致高风险人群识别不足的问题。现有方法的痛点在于无法有效利用大规模纵向患者健康信息,从而错失早期癌症信号。

核心思路:论文的核心思路是利用电子病历(EHR)数据构建预测模型,通过机器学习方法挖掘患者的健康信息,从而更准确地识别高风险人群。这种方法能够捕捉到传统风险因素无法覆盖的早期预警信号,实现更精确的早期癌症检测。

技术框架:整体框架包括数据预处理、特征工程、模型训练和性能评估四个主要阶段。首先,对来自“All of Us”研究项目的EHR、基因组和调查数据进行清洗和整合。然后,提取与癌症相关的特征,例如诊断代码、药物处方、实验室结果等。接着,使用机器学习算法训练预测模型,例如逻辑回归、支持向量机或深度学习模型。最后,通过比较EHR模型与传统风险因素的预测性能,评估其临床效用。

关键创新:最重要的技术创新点在于利用EHR基础模型,该模型基于全面的患者轨迹进行训练,能够捕捉到更细微的癌症早期信号。与传统的基于单一风险因素的筛查方法相比,EHR模型能够整合多种信息源,实现更全面的风险评估。

关键设计:论文采用了多种建模方法,包括基线模型和EHR基础模型。基线模型使用传统的机器学习算法,例如逻辑回归,而EHR基础模型则采用深度学习架构,例如Transformer。论文还比较了不同特征集的效果,例如仅使用传统风险因素、仅使用EHR数据以及两者结合使用。此外,论文还针对不同癌症类型进行了模型训练和评估,以验证其泛化能力。

📊 实验亮点

实验结果表明,即使使用基线建模方法,EHR模型在识别高风险个体中,真实癌症病例的富集程度也比单独使用传统风险因素高3到6倍。EHR基础模型进一步提高了26种癌症的预测性能,证明了EHR预测模型在早期检测方面的显著优势。这些结果表明,EHR模型具有超越传统筛查标准的潜力。

🎯 应用场景

该研究成果可应用于临床决策支持系统,辅助医生进行癌症早期筛查,尤其适用于缺乏明确风险因素的人群。通过整合EHR数据,可以实现更精确、可扩展的早期检测策略,降低癌症死亡率,并为患者提供更早的治疗机会。未来,该方法有望推广到其他疾病的早期预测和风险评估。

📄 摘要(原文)

Current cancer screening guidelines cover only a few cancer types and rely on narrowly defined criteria such as age or a single risk factor like smoking history, to identify high-risk individuals. Predictive models using electronic health records (EHRs), which capture large-scale longitudinal patient-level health information, may provide a more effective tool for identifying high-risk groups by detecting subtle prediagnostic signals of cancer. Recent advances in large language and foundation models have further expanded this potential, yet evidence remains limited on how useful EHR-based models are compared with traditional risk factors currently used in screening guidelines. We systematically evaluated the clinical utility of EHR-based predictive models against traditional risk factors, including gene mutations and family history of cancer, for identifying high-risk individuals across eight major cancers (breast, lung, colorectal, prostate, ovarian, liver, pancreatic, and stomach), using data from the All of Us Research Program, which integrates EHR, genomic, and survey data from over 865,000 participants. Even with a baseline modeling approach, EHR-based models achieved a 3- to 6-fold higher enrichment of true cancer cases among individuals identified as high risk compared with traditional risk factors alone, whether used as a standalone or complementary tool. The EHR foundation model, a state-of-the-art approach trained on comprehensive patient trajectories, further improved predictive performance across 26 cancer types, demonstrating the clinical potential of EHR-based predictive modeling to support more precise and scalable early detection strategies.