A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

📄 arXiv: 2604.18570v1 📥 PDF

作者: Andrew Zhang, Tong Ding, Sophia J. Wagner, Caiwei Tian, Ming Y. Lu, Rowland Pettit, Joshua E. Lewis, Alexandre Misrahi, Dandan Mo, Long Phi Le, Faisal Mahmood

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-20


💡 一句话要点

Apollo:构建医疗系统级多模态时序基础模型,实现虚拟患者表征

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 时序建模 医疗健康 临床预测 虚拟患者表征

📋 核心要点

  1. 现有方法难以整合医疗系统中海量、多模态、长时间跨度的患者数据,导致无法全面理解患者的健康状况。
  2. Apollo模型通过学习统一的表征空间,将结构化数据、非结构化文本和医学图像等多模态数据整合为虚拟患者表征。
  3. 实验表明,Apollo在疾病预测、治疗反应预测和语义检索等任务上表现出色,验证了其在临床预测和辅助决策方面的潜力。

📝 摘要(中文)

现代医学在孤立的系统中产生大量多模态数据,但目前尚无模型能将临床记录的完整广度和时间深度整合到统一的患者表征中。我们介绍了Apollo,一个多模态时序基础模型,它在美国一家大型医院系统的三十多年纵向医院记录上进行训练和评估,包含来自720万患者的250亿条记录,代表28种不同的医疗模式和12个主要医学专科。Apollo学习了一个统一的表征空间,整合了临床词汇表中超过10万个独特的医疗事件,以及图像和临床文本。这种“医学概念图谱”形成了一个计算基础,用于建模由结构化和非结构化事件序列组成的完整患者护理过程,这些事件被Apollo压缩成虚拟患者表征。为了评估这些全患者表征的潜力,我们从140万患者的预留测试集中创建了322个预后和检索任务。我们展示了Apollo嵌入的广义临床预测潜力,包括提前五年预测新疾病发病风险(95个任务)、疾病进展(78个任务)、治疗反应(59个任务)、治疗相关不良事件风险(17个任务)和医院运营终点(12个任务)。通过特征归因技术,我们表明模型预测与临床可解释的多模态生物标志物相一致。我们评估了61个检索任务的语义相似性搜索,并进一步展示了Apollo作为使用文本和图像查询的多模态医学搜索引擎的潜力。总之,这些建模能力为可计算医学奠定了基础,使患者护理的完整背景可用于计算推理。

🔬 方法详解

问题定义:现有医疗系统产生海量的多模态数据,包括结构化的电子病历、非结构化的临床文本和医学影像等。这些数据分散在不同的系统中,缺乏统一的整合和利用。现有的模型无法有效地处理这些数据,难以捕捉患者的完整病史和健康状况,从而限制了临床预测和决策的准确性。

核心思路:Apollo的核心思路是构建一个多模态时序基础模型,将来自不同模态的患者数据映射到一个统一的表征空间。通过学习患者在时间维度上的演变过程,Apollo能够捕捉患者的长期健康趋势和潜在风险。这种统一的表征使得模型能够进行各种临床预测和检索任务。

技术框架:Apollo的整体架构包含数据预处理、多模态嵌入和时序建模三个主要阶段。首先,对来自不同模态的数据进行清洗和标准化。然后,使用不同的嵌入模型将结构化数据、文本和图像转换为向量表示。最后,使用时序模型(例如Transformer)对患者的事件序列进行建模,生成虚拟患者表征。

关键创新:Apollo的关键创新在于其能够整合多种医疗模态的数据,并学习患者在时间维度上的演变过程。与以往的模型相比,Apollo能够更全面地理解患者的健康状况,并进行更准确的临床预测。此外,Apollo还构建了一个“医学概念图谱”,将各种医疗事件和概念联系起来,从而提高了模型的可解释性。

关键设计:Apollo使用了Transformer模型来捕捉患者事件序列中的长期依赖关系。模型使用了自注意力机制,能够关注到与预测任务相关的关键事件。此外,Apollo还使用了对比学习来提高嵌入的质量。具体的参数设置和损失函数细节在论文中未明确说明,属于未知信息。

📊 实验亮点

Apollo在322个预后和检索任务上进行了评估,包括提前五年预测新疾病发病风险(95个任务)、疾病进展(78个任务)、治疗反应(59个任务)等。实验结果表明,Apollo在这些任务上表现出色,能够有效地预测患者的健康风险和治疗效果。具体的性能数据和对比基线在论文中未详细给出,属于未知信息。

🎯 应用场景

Apollo模型具有广泛的应用前景,可以用于疾病风险预测、个性化治疗方案推荐、临床决策支持和医学知识检索等领域。通过整合患者的完整病史和健康数据,Apollo能够为医生提供更全面、准确的诊断和治疗建议,从而改善患者的健康状况和医疗服务质量。此外,Apollo还可以作为医学研究的平台,帮助研究人员发现新的疾病机制和治疗方法。

📄 摘要(原文)

Modern medicine generates vast multimodal data across siloed systems, yet no existing model integrates the full breadth and temporal depth of the clinical record into a unified patient representation. We introduce Apollo, a multimodal temporal foundation model trained and evaluated on over three decades of longitudinal hospital records from a major US hospital system, composed of 25 billion records from 7.2 million patients, representing 28 distinct medical modalities and 12 major medical specialties. Apollo learns a unified representation space integrating over 100 thousand unique medical events in our clinical vocabulary as well as images and clinical text. This "atlas of medical concepts" forms a computational substrate for modeling entire patient care journeys comprised of sequences of structured and unstructured events, which are compressed by Apollo into virtual patient representations. To assess the potential of these whole-patient representations, we created 322 prognosis and retrieval tasks from a held-out test set of 1.4 million patients. We demonstrate the generalized clinical forecasting potential of Apollo embeddings, including predicting new disease onset risk up to five years in advance (95 tasks), disease progression (78 tasks), treatment response (59 tasks), risk of treatment-related adverse events (17 tasks), and hospital operations endpoints (12 tasks). Using feature attribution techniques, we show that model predictions align with clinically-interpretable multimodal biomarkers. We evaluate semantic similarity search on 61 retrieval tasks, and moreover demonstrate the potential of Apollo as a multimodal medical search engine using text and image queries. Together, these modeling capabilities establish the foundation for computable medicine, where the full context of patient care becomes accessible to computational reasoning.