From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis
作者: Guy Lutsker, Gal Sapir, Smadar Shilo, Jordi Merino, Anastasia Godneva, Jerry R Greenfield, Dorit Samocha-Bonet, Raja Dhir, Francisco Gude, Shie Mannor, Eli Meirom, Gal Chechik, Hagai Rossman, Eran Segal
分类: q-bio.QM, cs.AI, cs.LG
发布日期: 2024-08-20 (更新: 2025-01-07)
💡 一句话要点
GluFormer:基于连续血糖监测数据的通用基础模型,用于预测健康结果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 连续血糖监测 基础模型 自监督学习 Transformer模型 糖尿病风险预测
📋 核心要点
- 现有方法难以充分利用CGM数据中丰富的时序信息,限制了其在预测更广泛健康结果方面的潜力。
- GluFormer通过自回归token预测学习血糖动态,将血糖模式转化为代谢健康的预测性表征,从而解决上述问题。
- 实验表明,GluFormer在预测糖尿病风险和心血管死亡事件方面优于传统指标,并在多个外部队列中表现出良好的泛化能力。
📝 摘要(中文)
本文提出了一种名为GluFormer的生成式基础模型,用于连续血糖监测(CGM)数据分析。该模型旨在学习细致的血糖模式,并将其转化为代谢健康的预测性表征。GluFormer在来自10812名成年人的超过1000万个CGM测量数据上进行训练,这些人主要没有糖尿病。该模型利用自回归token预测来捕捉纵向血糖动态。实验表明,GluFormer可以泛化到19个外部队列(n=6044),涵盖不同的种族和年龄、5个国家、8个CGM设备以及不同的病理生理状态。GluFormer的表征在预测临床指标方面优于当前的CGM指标,如血糖管理指标(GMI)。在一项对580名成年人进行CGM数据和12年随访的纵向研究中,GluFormer比血红蛋白A1c(HbA1c)%更有效地识别出患糖尿病风险较高的人群。此外,GluFormer在预测随机临床试验的干预前期的主要和次要结果方面优于其他方法。当将饮食数据整合到GluFormer中时,多模态版本的模型可以根据饮食摄入数据准确生成CGM数据,模拟饮食干预的结果,并预测个体对特定食物的反应。
🔬 方法详解
问题定义:论文旨在解决如何更有效地利用连续血糖监测(CGM)数据预测健康结果的问题。现有方法,如血糖管理指标(GMI)等,无法充分捕捉CGM数据中的复杂时序模式,导致预测精度受限。此外,现有模型的泛化能力不足,难以适应不同人群、设备和生理状态的数据。
核心思路:论文的核心思路是构建一个生成式基础模型GluFormer,通过自监督学习(SSL)的方式,从大规模CGM数据中学习通用的血糖模式表征。这种表征能够捕捉纵向血糖动态,并用于预测各种健康结果。通过预训练和微调,GluFormer可以适应不同的任务和数据集。
技术框架:GluFormer的整体架构基于Transformer模型,采用自回归token预测的方式进行预训练。具体流程如下:1) 将CGM数据离散化为token序列;2) 使用Transformer模型预测序列中的下一个token;3) 在下游任务中,使用预训练的GluFormer提取CGM数据的表征,并用于预测健康结果。此外,论文还提出了一个多模态版本的GluFormer,可以整合饮食数据,并用于生成CGM数据和模拟饮食干预。
关键创新:GluFormer的关键创新在于:1) 将生成式模型应用于CGM数据分析,通过自回归预测学习血糖动态;2) 构建了一个通用的基础模型,可以泛化到不同的数据集和任务;3) 提出了一个多模态版本的GluFormer,可以整合饮食数据,并用于模拟饮食干预。
关键设计:GluFormer的关键设计包括:1) 使用Transformer模型作为基础架构,以捕捉CGM数据中的长程依赖关系;2) 采用自回归token预测作为预训练目标,以学习血糖动态;3) 设计了一个多模态融合模块,用于整合CGM数据和饮食数据;4) 使用大规模CGM数据进行预训练,以提高模型的泛化能力。
📊 实验亮点
GluFormer在多个实验中表现出色:1) 在预测糖尿病风险方面,GluFormer能够捕捉66%的新发糖尿病病例,而传统指标仅为7%;2) 在预测心血管死亡事件方面,69%的事件发生在GluFormer预测的最高风险四分位数中,而最低风险四分位数中没有事件发生;3) GluFormer在预测临床试验结果方面优于其他方法,证明了其强大的预测能力。
🎯 应用场景
GluFormer具有广泛的应用前景,包括:1) 糖尿病风险预测和早期诊断;2) 个性化饮食干预方案设计;3) 药物疗效评估;4) 临床试验设计和优化;5) 可穿戴设备数据分析。该研究有望推动精准医疗的发展,改善慢性病管理。
📄 摘要(原文)
Recent advances in SSL enabled novel medical AI models, known as foundation models, offer great potential for better characterizing health from diverse biomedical data. CGM provides rich, temporal data on glycemic patterns, but its full potential for predicting broader health outcomes remains underutilized. Here, we present GluFormer, a generative foundation model for CGM data that learns nuanced glycemic patterns and translates them into predictive representations of metabolic health. Trained on over 10 million CGM measurements from 10,812 adults, primarily without diabetes, GluFormer uses autoregressive token prediction to capture longitudinal glucose dynamics. We show that GluFormer generalizes to 19 external cohorts (n=6,044) spanning different ethnicities and ages, 5 countries, 8 CGM devices, and diverse pathophysiological states. GluFormers representations exceed the performance of current CGM metrics, such as the Glucose Management Indicator (GMI), for forecasting clinical measures. In a longitudinal study of 580 adults with CGM data and 12-year follow-up, GluFormer identifies individuals at elevated risk of developing diabetes more effectively than blood HbA1C%, capturing 66% of all new-onset diabetes diagnoses in the top quartile versus 7% in the bottom quartile. Similarly, 69% of cardiovascular-death events occurred in the top quartile with none in the bottom quartile, demonstrating powerful risk stratification beyond traditional glycemic metrics. We also show that CGM representations from pre-intervention periods in Randomized Clinical Trials outperform other methods in predicting primary and secondary outcomes. When integrating dietary data into GluFormer, we show that the multi-modal version of the model can accurately generate CGM data based on dietary intake data, simulate outcomes of dietary interventions, and predict individual responses to specific foods.