SleepFM: Multi-modal Representation Learning for Sleep Across Brain Activity, ECG and Respiratory Signals
作者: Rahul Thapa, Bryan He, Magnus Ruud Kjaer, Hyatt Moore, Gauri Ganjoo, Emmanuel Mignot, James Zou
分类: cs.LG, cs.AI, eess.SP
发布日期: 2024-05-28
🔗 代码/项目: GITHUB
💡 一句话要点
SleepFM:通过脑电、心电和呼吸信号的多模态表征学习用于睡眠分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 睡眠分析 多模态学习 对比学习 脑电信号 心电信号 呼吸信号 睡眠阶段分类 睡眠呼吸暂停
📋 核心要点
- 现有睡眠分析方法难以有效融合多模态生理信号,导致对睡眠状态的理解不够全面。
- SleepFM通过多模态对比学习,学习睡眠数据的统一表征,从而提升下游任务的性能。
- 实验表明,SleepFM在睡眠阶段分类和睡眠呼吸暂停检测等任务上显著优于传统方法。
📝 摘要(中文)
睡眠是一个复杂的生理过程,通过记录大脑、心脏和呼吸活动的各种模态进行评估。我们整理了一个来自超过14,000名参与者的大型多导睡眠图数据集,包含超过100,000小时的多模态睡眠记录。利用这个广泛的数据集,我们开发了SleepFM,这是第一个用于睡眠分析的多模态基础模型。我们表明,一种新颖的留一法对比学习方法,相比于标准成对对比学习的表征,显著提高了下游任务的性能。在SleepFM学习到的嵌入上训练的逻辑回归模型,在睡眠阶段分类(宏平均AUROC 0.88 vs 0.72,宏平均AUPRC 0.72 vs 0.48)和睡眠呼吸暂停检测(AUROC 0.85 vs 0.69,AUPRC 0.77 vs 0.61)方面,优于端到端训练的卷积神经网络(CNN)。值得注意的是,学习到的嵌入在从90,000个候选对象中检索其他模态的相应记录片段时,实现了48%的top-1平均准确率。这项工作证明了整体多模态睡眠建模对于充分捕捉睡眠记录丰富性的价值。SleepFM是开源的,可在https://github.com/rthapa84/sleepfm-codebase获得。
🔬 方法详解
问题定义:论文旨在解决睡眠分析中多模态数据融合的问题。现有的方法,例如基于CNN的端到端训练,难以充分利用不同模态之间的互补信息,导致睡眠阶段分类和睡眠呼吸暂停检测等任务的性能受限。此外,缺乏大规模的多模态睡眠数据集也限制了模型的泛化能力。
核心思路:论文的核心思路是利用对比学习,学习一个能够有效融合脑电、心电和呼吸信号的多模态表征空间。通过将来自同一睡眠片段的不同模态数据拉近,并将来自不同睡眠片段的数据推远,模型能够学习到对睡眠状态具有判别性的特征。这种方法能够克服传统方法中模态信息孤立的问题,从而提升睡眠分析的准确性。
技术框架:SleepFM的技术框架主要包括以下几个阶段:1) 数据预处理:对脑电、心电和呼吸信号进行预处理,例如滤波、降噪等。2) 特征提取:使用卷积神经网络(CNN)从每个模态的数据中提取特征。3) 多模态融合:将不同模态的特征进行融合,得到一个统一的表征向量。4) 对比学习:使用对比学习的目标函数,训练模型学习一个能够区分不同睡眠状态的表征空间。5) 下游任务:将学习到的表征向量用于睡眠阶段分类和睡眠呼吸暂停检测等下游任务。
关键创新:SleepFM最重要的技术创新点在于提出了一种新颖的留一法对比学习方法。传统的成对对比学习方法容易受到负样本选择的影响,导致模型学习到的表征空间不够鲁棒。而留一法对比学习方法通过将每个样本与其他所有样本进行对比,能够更有效地利用数据中的信息,从而学习到更具有判别性的表征。
关键设计:在SleepFM中,作者使用了ResNet作为特征提取器,并使用InfoNCE损失函数作为对比学习的目标函数。此外,作者还使用了余弦退火学习率调度器来优化模型的训练过程。对于留一法对比学习,作者通过masking的方式实现,避免了计算所有样本对之间的相似度,从而提高了训练效率。
🖼️ 关键图片
📊 实验亮点
SleepFM在睡眠阶段分类和睡眠呼吸暂停检测任务上取得了显著的性能提升。在睡眠阶段分类任务中,SleepFM的宏平均AUROC达到0.88,宏平均AUPRC达到0.72,分别比端到端训练的CNN提高了16%和24%。在睡眠呼吸暂停检测任务中,SleepFM的AUROC达到0.85,AUPRC达到0.77,分别比CNN提高了16%和16%。此外,SleepFM在跨模态检索任务中也表现出色,实现了48%的top-1平均准确率。
🎯 应用场景
SleepFM具有广泛的应用前景,可用于开发更准确、更智能的睡眠监测设备和系统。例如,它可以用于辅助医生诊断睡眠障碍,为患者提供个性化的治疗方案。此外,SleepFM还可以应用于智能家居领域,根据用户的睡眠状态自动调节环境参数,从而改善用户的睡眠质量。该研究为未来睡眠健康管理提供了新的思路和技术手段。
📄 摘要(原文)
Sleep is a complex physiological process evaluated through various modalities recording electrical brain, cardiac, and respiratory activities. We curate a large polysomnography dataset from over 14,000 participants comprising over 100,000 hours of multi-modal sleep recordings. Leveraging this extensive dataset, we developed SleepFM, the first multi-modal foundation model for sleep analysis. We show that a novel leave-one-out approach for contrastive learning significantly improves downstream task performance compared to representations from standard pairwise contrastive learning. A logistic regression model trained on SleepFM's learned embeddings outperforms an end-to-end trained convolutional neural network (CNN) on sleep stage classification (macro AUROC 0.88 vs 0.72 and macro AUPRC 0.72 vs 0.48) and sleep disordered breathing detection (AUROC 0.85 vs 0.69 and AUPRC 0.77 vs 0.61). Notably, the learned embeddings achieve 48% top-1 average accuracy in retrieving the corresponding recording clips of other modalities from 90,000 candidates. This work demonstrates the value of holistic multi-modal sleep modeling to fully capture the richness of sleep recordings. SleepFM is open source and available at https://github.com/rthapa84/sleepfm-codebase.