GlucoFM-Bench: Benchmarking Time-Series Foundation Models for Blood Glucose Forecasting
作者: Baiying Lu, Zhaohui Liang, Ryan Pontius, Shengpu Tang, Temiloluwa Prioleau
分类: cs.LG
发布日期: 2026-06-05
💡 一句话要点
提出GlucoFM-Bench以评估血糖预测的时间序列基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 血糖预测 时间序列模型 机器学习 深度学习 糖尿病管理 基准评估 模型比较
📋 核心要点
- 血糖预测面临生理动态异质性带来的挑战,传统模型在准确性和适应性上存在不足。
- 提出GlucoFM-Bench基准,系统评估多种时间序列基础模型与深度学习模型在血糖预测中的表现。
- 实验结果表明,预训练的TSFMs在零样本和少样本任务中表现优异,但在数据充足时,轻量级LSTM模型的表现更佳。
📝 摘要(中文)
血糖预测模型是现代糖尿病管理系统的基础,可靠的短期预测能够支持主动干预、自动胰岛素输送,并降低低血糖和高血糖事件的风险。由于糖尿病人群的生理动态异质性,血糖预测面临独特挑战。尽管传统机器学习和深度学习模型已被广泛评估,但时间序列基础模型(TSFMs)在此领域的研究仍较少。为此,本文提出了GlucoFM-Bench,一个全面的基准,评估最先进的TSFMs与监督深度学习模型在血糖预测中的表现。我们评估了八种代表性架构,包括预训练的TSFMs和任务特定的深度学习模型,涵盖15个公开的糖尿病相关数据集,涉及1,117名不同类型的糖尿病患者。结果显示,预训练的TSFMs在零样本和少样本转移中表现出色,但在数据充足时,轻量级LSTM模型的表现更佳。
🔬 方法详解
问题定义:本文旨在解决血糖预测中时间序列基础模型(TSFMs)应用不足的问题。现有的传统机器学习和深度学习模型在不同糖尿病人群中表现不一,且缺乏针对TSFMs的系统评估。
核心思路:通过构建GlucoFM-Bench基准,全面评估多种TSFMs与监督深度学习模型在血糖预测中的效果,旨在填补这一研究空白。
技术框架:GlucoFM-Bench包含多个模块,包括数据集选择、模型训练与评估、以及结果分析。我们使用15个公开数据集,涵盖不同类型的糖尿病患者,评估模型在零样本、少样本和全样本条件下的表现。
关键创新:最重要的创新在于引入了时间序列基础模型(TSFMs)进行血糖预测的系统性评估,特别是Chronos-2和TimesFM在零样本和少样本任务中的优越表现。
关键设计:在模型评估中,我们系统地调整了上下文长度和预测范围,采用了多种评估指标,确保结果的全面性和可重复性。
📊 实验亮点
实验结果显示,预训练的TSFMs在零样本和少样本任务中表现优异,尤其是Chronos-2和TimesFM模型,其最佳零样本模型的表现与最佳全样本监督模型相差不超过5%。然而,在任务特定数据充足的情况下,轻量级LSTM模型的表现超出TSFMs 4-21%。
🎯 应用场景
该研究的潜在应用领域包括糖尿病管理、智能医疗设备和个性化健康监测。通过提高血糖预测的准确性,能够为患者提供更好的管理方案,降低糖尿病相关并发症的风险,具有重要的实际价值和未来影响。
📄 摘要(原文)
Blood glucose forecasting models are foundational for modern diabetes management systems, as reliable short-term predictions can enable proactive interventions, support automated insulin delivery, and reduce the risk of hypo- and hyperglycemic events. From a modeling perspective, glucose forecasting poses unique challenges due to heterogeneous physiological dynamics across diabetes populations. Traditional machine learning and deep learning models have been extensively evaluated for glucose prediction, yet recent time-series foundation models (TSFMs) remain much less studied in this setting. To bridge this gap, we present GlucoFM-Bench, a comprehensive benchmark evaluating state-of-the-art TSFMs alongside supervised deep learning models for blood glucose forecasting. We assess eight representative architectures, including pre-trained TSFMs, time-series large language models, and task-specific deep learning models, across 15 publicly available diabetes-relevant datasets comprising 1,117 individuals with type 1 diabetes, type 2 diabetes, prediabetes, and no diabetes. Models are evaluated under zero-shot, few-shot, and full-shot protocols, with systematic variation in context length and prediction horizon. Across datasets, pre-trained TSFMs, especially Chronos-2 and TimesFM, show strong zero-shot and few-shot transfer, with the best zero-shot model performing within 5% of the best full-shot supervised model. Yet, when task-specific data are abundant, a lightweight LSTM remains strongest, outperforming TSFMs by 4--21% under full-shot training. Stratified analyses reveal persistent challenges in T1D cohorts and hypo-/hyperglycemic ranges, highlighting the need for evaluation beyond aggregate error metrics. Together, GlucoFM-Bench provides a standardized and reproducible foundation for evaluating, comparing, and improving foundation models for blood glucose forecasting.