A robust PPG foundation model using multimodal physiological supervision
作者: Eloy Geenjaar, Vince Calhoun, Scott Daly, Gouthaman KV, Lie Lu, Trisha Mittal, Daniel P. Darcy
分类: cs.LG, cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出一种鲁棒的PPG基础模型以解决数据泛化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 光电容积描记法 多模态监督 生理信号 模型鲁棒性 数据泛化 心电图 呼吸信号
📋 核心要点
- 现有PPG基础模型依赖于高质量的预训练数据,导致在实际应用中泛化能力不足。
- 本文提出的模型利用心电图和呼吸信号进行对比样本选择,避免了对高质量数据的依赖。
- 实验结果表明,模型在15个下游任务中有14个任务表现优于现有方法,显示出显著的性能提升。
📝 摘要(中文)
光电容积描记法(PPG)是一种非侵入性血容量变化测量方法,广泛应用于可穿戴设备和临床环境。现有的PPG基础模型通常依赖于高质量的开放源 ICU 数据集进行预训练,导致在实际应用中难以泛化。本文提出了一种新的PPG基础模型,该模型不需要高质量的预训练数据,而是利用伴随的心电图和呼吸信号在 ICU 数据集中选择对比样本进行预训练。通过这种方法,模型能够从噪声 PPG 段中学习,提高了推理的鲁棒性。我们的模型在预训练时使用的受试者数量比现有最先进的方法少3倍,并在15个不同的下游任务中有14个任务表现出性能提升,显示出多模态监督能够整合互补的生理信息,从而增强PPG基础模型的鲁棒性和对消费级数据的泛化能力。
🔬 方法详解
问题定义:现有的PPG基础模型通常依赖于高质量的开放源数据集进行预训练,这使得模型在实际应用中难以泛化,尤其是在噪声数据环境下表现不佳。
核心思路:本文提出的模型通过利用伴随的心电图和呼吸信号来选择对比样本进行预训练,从而使模型能够在不依赖高质量数据的情况下学习和保留噪声PPG段的信息,提高了模型的鲁棒性。
技术框架:模型的整体架构包括数据预处理、对比样本选择、模型训练和推理阶段。预处理阶段负责清洗和标准化输入信号,选择阶段则通过多模态信号的结合来增强样本的多样性,训练阶段采用对比学习策略来优化模型。
关键创新:本研究的核心创新在于通过多模态生理信号的结合来增强PPG模型的鲁棒性,这与传统方法依赖于单一高质量数据集的方式形成鲜明对比。
关键设计:在模型设计中,采用了对比损失函数来优化模型的学习过程,同时在网络结构上进行了调整,以适应多模态输入的特性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的模型在14个下游任务中超越了现有的最先进方法,尤其在日常活动和心率预测任务中表现突出。模型在预训练时使用的受试者数量比现有方法少3倍,依然实现了显著的性能提升,验证了多模态监督的有效性。
🎯 应用场景
该研究的潜在应用领域包括可穿戴健康监测设备、临床生理监测以及运动健康管理等。通过提高PPG模型的鲁棒性,能够更好地适应各种实际应用场景,提升用户体验和数据准确性,未来可能对个性化医疗和健康管理产生深远影响。
📄 摘要(原文)
Photoplethysmography (PPG), a non-invasive measure of changes in blood volume, is widely used in both wearable devices and clinical settings. Recent PPG foundation models either use open-source ICU datasets with pretraining paradigms that require curated data and thus complicate generalization to field-like data, or use closed-source field-like PPG data. In contrast, we propose a PPG foundation model that does not require high-quality or field-like pretraining data, and instead leverages accompanying electrocardiogram and respiratory signals in ICU datasets to select contrastive samples during pretraining. Our approach allows the model to retain and learn from noisy PPG segments, improving robustness at inference. Our model, pretrained on 3x fewer subjects than existing state-of-the-art approaches, achieves performance improvements on 14 out of 15 diverse downstream tasks, including field-like daily activity and heart rate prediction. Our results demonstrate that multimodal supervision can integrate complementary physiological information to improve the robustness of PPG foundation models and enhance their generalization to consumer-grade data.