Toward Foundation Model for Multivariate Wearable Sensing of Physiological Signals

📄 arXiv: 2412.09758v2 📥 PDF

作者: Yunfei Luo, Yuliang Chen, Asif Salekin, Tauhidur Rahman

分类: cs.LG, eess.SP

发布日期: 2024-12-12 (更新: 2025-05-16)

备注: The code is available at: http://github.com/Mobile-Sensing-and-UbiComp-Laboratory/NormWear


💡 一句话要点

提出NormWear,用于可穿戴生理信号的多变量通用表征学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可穿戴传感 生理信号 基础模型 多模态学习 通道注意力

📋 核心要点

  1. 可穿戴传感数据模式和频段多变,现有方法难以提取通用表征,限制了其在医疗健康领域的应用。
  2. NormWear通过通道感知注意力机制和共享[CLS]令牌,学习传感器内和传感器间的信号模式,提取通用表征。
  3. NormWear在11个数据集、18个应用上超越现有方法,证明其在心理健康、身体状态推断等领域的泛化能力。

📝 摘要(中文)

本文提出NormWear,一种多模态且通用的基础模型,旨在从可穿戴传感数据中提取泛化且信息丰富的表征。可穿戴传感数据在模式和频段上具有变异性,尤其是在医疗健康相关应用中,这带来了独特的挑战。NormWear通过设计一个通道感知注意力机制,利用共享的特殊联络[CLS]令牌,来检测传感器内和传感器间的信号模式,从而提取更有意义的信息。该模型在来自多个公共数据集的PPG、ECG、EEG、GSR和IMU等多种生理信号上进行预训练。实验结果表明,NormWear在11个公共可穿戴传感数据集上表现出卓越的泛化能力,涵盖心理健康、身体状态推断、生命体征估计和疾病风险评估等18个应用,并在零样本、部分样本和全样本设置下始终优于竞争基线,表明其在现实健康应用中具有广泛的适用性。

🔬 方法详解

问题定义:可穿戴设备采集的生理信号具有高度的异构性和变异性,不同传感器、不同个体、不同场景下的信号特征差异显著。现有的时间序列模型难以有效地提取这些信号中的通用特征,导致模型在新的数据集或任务上的泛化能力不足。因此,如何构建一个能够适应各种可穿戴设备和应用场景的基础模型,是本文要解决的核心问题。

核心思路:NormWear的核心思路是利用通道感知注意力机制,同时关注传感器内部的时间序列信息和传感器之间的关联信息。通过共享的[CLS]令牌,模型能够学习到跨传感器的全局表征,从而提高模型的泛化能力。这种设计能够有效地捕捉不同传感器之间的互补信息,并减少模型对特定传感器配置的依赖。

技术框架:NormWear的整体框架包括数据预处理、通道感知注意力编码器和下游任务适配三个主要阶段。首先,对来自不同可穿戴传感器的生理信号进行预处理,包括数据清洗、标准化和重采样等。然后,将预处理后的数据输入到通道感知注意力编码器中,该编码器利用自注意力机制学习信号的局部和全局表征。最后,将编码器输出的表征输入到下游任务特定的模型中,进行微调或直接应用。

关键创新:NormWear最重要的技术创新点在于其通道感知注意力机制。该机制能够同时关注传感器内部的时间序列信息和传感器之间的关联信息,从而提取更具判别性的特征。与传统的自注意力机制相比,通道感知注意力机制能够更好地捕捉不同传感器之间的互补信息,并提高模型的泛化能力。

关键设计:通道感知注意力机制的关键设计包括:1)使用共享的[CLS]令牌来学习跨传感器的全局表征;2)使用多头注意力机制来捕捉不同尺度的信号特征;3)使用残差连接和层归一化来加速模型训练和提高模型稳定性。损失函数采用对比学习损失,鼓励模型学习到相似信号的相似表征,不同信号的不同表征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NormWear在11个公共可穿戴传感数据集上进行了评估,涵盖18个应用。实验结果表明,NormWear在零样本、部分样本和全样本设置下均优于现有的基线方法。例如,在心理健康监测任务中,NormWear的准确率比最佳基线提高了5%以上。这些结果表明,NormWear具有很强的泛化能力和实用价值。

🎯 应用场景

NormWear具有广泛的应用前景,可用于心理健康监测、身体状态推断、生命体征估计和疾病风险评估等领域。例如,可以利用NormWear构建一个智能健康监测系统,通过分析可穿戴设备采集的生理信号,实时监测用户的健康状况,并及时发出预警。此外,NormWear还可以用于个性化健康管理,根据用户的生理信号特征,提供定制化的健康建议和服务。未来,NormWear有望成为可穿戴健康领域的基础设施,推动该领域的发展。

📄 摘要(原文)

Time-series foundation models excel at tasks like forecasting across diverse data types by leveraging informative waveform representations. Wearable sensing data, however, pose unique challenges due to their variability in patterns and frequency bands, especially for healthcare-related outcomes. The main obstacle lies in crafting generalizable representations that adapt efficiently across heterogeneous sensing configurations and applications. To address this, we propose NormWear, the first multi-modal and ubiquitous foundation model designed to extract generalized and informative representations from wearable sensing data. Specifically, we design a channel-aware attention mechanism with a shared special liaison [CLS] token to detect signal patterns in both intra-sensor and inter-sensors. This helps the model to extract more meaningful information considering both time series themselves and the relationships between input sensors. This helps the model to be widely compatible with various sensors settings. NormWear is pretrained on a diverse set of physiological signals, including PPG, ECG, EEG, GSR, and IMU, from various public datasets. Our model shows exceptional generalizability across 11 public wearable sensing datasets, spanning 18 applications in mental health, body state inference, vital sign estimation, and disease risk evaluation. It consistently outperforms competitive baselines under zero-shot, partial-shot, and full-shot settings, indicating broad applicability in real-world health applications.