PaPaGei: Open Foundation Models for Optical Physiological Signals
作者: Arvind Pillai, Dimitris Spathis, Fahim Kawsar, Mohammad Malekzadeh
分类: cs.LG, eess.SP
发布日期: 2024-10-27 (更新: 2025-02-05)
备注: Accepted at ICLR 2025. Improved version with new experiments and results. Code and models: https://github.com/nokia-bell-labs/papagei-foundation-model
💡 一句话要点
PaPaGei:用于光学生理信号的开放式基础模型,提升PPG信号处理性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: PPG信号处理 基础模型 自监督学习 表征学习 心血管健康监测
📋 核心要点
- 现有PPG信号处理模型泛化能力弱,且缺乏公开模型,限制了研究的复现性和领域发展。
- PaPaGei利用PPG信号形态的领域知识,提出了一种新颖的表征学习方法,学习更丰富的信号表征。
- PaPaGei在多个任务上超越现有模型,分类和回归指标分别提升6.3%和2.9%,且更具数据和参数效率。
📝 摘要(中文)
本文提出了PaPaGei,首个用于光电容积脉搏波(PPG)信号的开放式基础模型。该模型在超过57,000小时的数据上进行了预训练,数据包含来自公开数据集的2000万个未标记的PPG片段。论文引入了一种新颖的表征学习方法,该方法利用了PPG信号形态的领域知识,从而能够捕获比传统对比学习方法更丰富的表征。在涵盖心血管健康、睡眠障碍、妊娠监测和健康评估的10个不同数据集的20个任务中,PaPaGei的性能优于最先进的时间序列基础模型和自监督学习基准,在至少14个任务中,分类和回归指标分别提高了6.3%和2.9%。此外,PaPaGei在数据和参数效率方面表现更佳,性能优于大70倍的模型。论文还考察了模型在不同肤色上的鲁棒性,为未来模型的偏差评估建立了基准。PaPaGei既可以作为特征提取器,也可以作为多模态模型的编码器,为多模态健康监测开辟了新的机会。
🔬 方法详解
问题定义:现有基于PPG信号的机器学习模型通常是任务特定的,泛化能力较差。同时,由于缺乏公开可用的模型,研究的可重复性受到限制。因此,需要一个通用的、可泛化的PPG信号处理模型,并将其开源,以促进该领域的发展。
核心思路:论文的核心思路是利用大规模的PPG信号数据进行预训练,学习通用的PPG信号表征。同时,利用PPG信号形态的领域知识,设计一种新的表征学习方法,以捕获更丰富的信号特征,从而提高模型的泛化能力。
技术框架:PaPaGei的整体框架包括以下几个主要步骤:1) 数据收集:收集来自公开数据集的大量PPG信号数据。2) 数据预处理:对PPG信号进行预处理,例如去除噪声、归一化等。3) 模型预训练:使用自监督学习方法,在大规模PPG信号数据上预训练模型。4) 模型评估:在多个下游任务上评估模型的性能。
关键创新:论文最重要的技术创新点在于提出了一种新颖的表征学习方法,该方法利用了PPG信号形态的领域知识。与传统的对比学习方法不同,该方法能够更好地捕获PPG信号的特征,从而提高模型的性能。
关键设计:论文的关键设计包括:1) 使用Transformer作为基础模型架构。2) 设计了一种基于PPG信号形态的对比学习损失函数。3) 使用了大规模的PPG信号数据集进行预训练。4) 评估了模型在不同肤色上的鲁棒性。
🖼️ 关键图片
📊 实验亮点
PaPaGei在20个任务中的14个任务上,分类和回归指标分别提高了6.3%和2.9%,超越了最先进的时间序列基础模型和自监督学习基准。更重要的是,PaPaGei在数据和参数效率方面表现更佳,性能优于大70倍的模型,展现了其强大的学习能力和泛化性能。模型在不同肤色上的鲁棒性评估也为未来模型的公平性设计提供了参考。
🎯 应用场景
PaPaGei具有广泛的应用前景,可用于心血管健康监测、睡眠质量评估、妊娠监测、情绪识别等领域。该模型可以作为特征提取器或编码器,为各种健康监测应用提供强大的支持,并促进多模态健康监测的发展。此外,该模型的开源发布将加速PPG信号处理领域的研究进展。
📄 摘要(原文)
Photoplethysmography (PPG) is the leading non-invasive technique for monitoring biosignals and cardiovascular health, with widespread adoption in both clinical settings and consumer wearable devices. While machine learning models trained on PPG signals have shown promise, they tend to be task-specific and struggle with generalization. Current research is limited by the use of single-device datasets, insufficient exploration of out-of-domain generalization, and a lack of publicly available models, which hampers reproducibility. To address these limitations, we present PaPaGei, the first open foundation model for PPG signals. The model is pre-trained on over 57,000 hours of data, comprising 20 million unlabeled PPG segments from publicly available datasets. We introduce a novel representation learning approach that leverages domain knowledge of PPG signal morphology across individuals, enabling the capture of richer representations compared to traditional contrastive learning methods. We evaluate PaPaGei against state-of-the-art time-series foundation models and self-supervised learning benchmarks across 20 tasks from 10 diverse datasets, spanning cardiovascular health, sleep disorders, pregnancy monitoring, and wellbeing assessment. Our model demonstrates superior performance, improving classification and regression metrics by 6.3% and 2.9% respectively in at least 14 tasks. Notably, PaPaGei achieves these results while being more data- and parameter-efficient, outperforming models that are 70x larger. Beyond accuracy, we examine model robustness across different skin tones, establishing a benchmark for bias evaluation in future models. PaPaGei can serve as both a feature extractor and an encoder for multimodal models, opening up new opportunities for multimodal health monitoring.