sleep2vec: Unified Cross-Modal Alignment for Heterogeneous Nocturnal Biosignals

📄 arXiv: 2602.13857v1 📥 PDF

作者: Weixuan Yuan, Zengrui Jin, Yichen Wang, Donglin Xie, Ziyi Ye, Chao Zhang, Xuesong Chen

分类: cs.LG, eess.SP

发布日期: 2026-02-14


💡 一句话要点

提出sleep2vec,通过跨模态对齐统一建模异构夜间生理信号,提升睡眠分析任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 睡眠分析 跨模态学习 生理信号处理 对比学习 表征学习 多模态融合 夜间生理信号

📋 核心要点

  1. 现有睡眠分析依赖多导睡眠监测等设备,但设备异构性和传感器缺失对统一建模构成挑战。
  2. sleep2vec通过跨模态对齐学习共享表示,利用生理元数据动态加权负样本,缓解数据偏差。
  3. 实验表明,sleep2vec在睡眠分期和临床评估中优于基线,且对模态缺失具有鲁棒性。

📝 摘要(中文)

本文提出sleep2vec,一个用于处理多样且不完整的夜间生理信号的基础模型,它通过跨模态对齐学习共享表示。sleep2vec在包含九种模态的42249个夜间记录上进行对比预训练,使用一种考虑人口统计学、年龄、地点和病史的InfoNCE目标函数,该函数结合了生理和采集元数据(例如,年龄、性别、记录地点)来动态地加权负样本,并减轻特定人群的偏差。在下游的睡眠分期和临床结果评估中,sleep2vec始终优于强大的基线模型,并且对任何可用的模态子集和传感器缺失都具有鲁棒性。此外,本文首次表征了夜间生理信号关于模态多样性和模型容量的缩放规律。这些结果表明,统一的跨模态对齐,加上合理的缩放,能够实现标签高效、通用的真实世界夜间生理信号建模。

🔬 方法详解

问题定义:现有睡眠分析方法依赖于多导睡眠监测(PSG)等设备采集的多种生理信号,如脑电图(EEG)、眼动图(EOG)、心电图(ECG)和血氧饱和度(SpO2)等。然而,不同设备之间的异构性以及传感器数据缺失问题,使得统一建模这些多模态信号变得非常困难。现有的方法难以有效融合这些异构数据,并且容易受到数据缺失的影响,导致性能下降。

核心思路:本文的核心思路是通过跨模态对齐学习一个共享的表示空间,使得来自不同模态的生理信号能够在这个共享空间中进行有效的比较和融合。通过对比学习的方式,模型能够学习到不同模态之间的关联性,从而即使在某些模态缺失的情况下,也能利用其他模态的信息进行推断。此外,引入生理和采集元数据来动态加权负样本,可以缓解特定人群的偏差,提高模型的泛化能力。

技术框架:sleep2vec的整体框架包括以下几个主要阶段:1) 数据预处理:对来自不同设备的生理信号进行标准化和清洗。2) 特征提取:使用卷积神经网络(CNN)或其他合适的网络结构从每个模态的信号中提取特征。3) 跨模态对齐:通过对比学习的方式,将不同模态的特征映射到共享的表示空间。4) 下游任务:利用学习到的共享表示进行睡眠分期和临床结果评估等下游任务。

关键创新:本文最重要的技术创新点在于提出了一个统一的跨模态对齐框架,能够有效地处理异构且不完整的夜间生理信号。与现有方法相比,sleep2vec能够更好地利用不同模态之间的互补信息,并且对数据缺失具有更强的鲁棒性。此外,引入生理和采集元数据来动态加权负样本,也是一个重要的创新点,可以缓解特定人群的偏差。

关键设计:在对比学习中,本文使用了InfoNCE损失函数,并引入了人口统计学、年龄、地点和病史等元数据来动态加权负样本。具体的加权方式未知,但目标是缓解cohort-specific shortcuts。网络结构方面,使用了卷积神经网络(CNN)来提取特征,具体的网络结构细节未知。此外,本文还研究了模型容量和模态多样性对性能的影响,并探索了夜间生理信号的缩放规律。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

sleep2vec在睡眠分期和临床结果评估等下游任务中,始终优于强大的基线模型。即使在部分模态缺失的情况下,sleep2vec依然表现出很强的鲁棒性。此外,论文首次表征了夜间生理信号关于模态多样性和模型容量的缩放规律,为未来的研究提供了重要的指导。

🎯 应用场景

sleep2vec可应用于多种睡眠相关场景,如智能睡眠监测、睡眠障碍诊断、个性化睡眠干预等。该模型能够有效处理来自不同设备和传感器的异构数据,提高睡眠分析的准确性和可靠性。未来,该研究有望推动睡眠医学的发展,改善人们的睡眠质量。

📄 摘要(原文)

Tasks ranging from sleep staging to clinical diagnosis traditionally rely on standard polysomnography (PSG) devices, bedside monitors and wearable devices, which capture diverse nocturnal biosignals (e.g., EEG, EOG, ECG, SpO$_2$). However, heterogeneity across devices and frequent sensor dropout pose significant challenges for unified modelling of these multimodal signals. We present \texttt{sleep2vec}, a foundation model for diverse and incomplete nocturnal biosignals that learns a shared representation via cross-modal alignment. \texttt{sleep2vec} is contrastively pre-trained on 42,249 overnight recordings spanning nine modalities using a \textit{Demography, Age, Site \& History-aware InfoNCE} objective that incorporates physiological and acquisition metadata (\textit{e.g.}, age, gender, recording site) to dynamically weight negatives and mitigate cohort-specific shortcuts. On downstream sleep staging and clinical outcome assessment, \texttt{sleep2vec} consistently outperforms strong baselines and remains robust to any subset of available modalities and sensor dropout. We further characterize, to our knowledge for the first time, scaling laws for nocturnal biosignals with respect to modality diversity and model capacity. Together, these results show that unified cross-modal alignment, coupled with principled scaling, enables label-efficient, general-purpose modelling of real-world nocturnal biosignals.