Pretraining on Sleep Data Improves non-Sleep Biosignal Tasks

📄 arXiv: 2605.02500v1 📥 PDF

作者: William Lehn-Schiøler, Magnus Ruud Kjær, Phillip Hempel, Magnus Guldberg Pedersen, Rahul Thapa, Bryan He, Nicolai Spicher, Andreas Brink-Kjaer, Lars Kai Hansen, Emmanuel Mignot

分类: cs.LG, cs.AI

发布日期: 2026-05-04

备注: 10 pages, 3 figures, 10 tables


💡 一句话要点

利用睡眠数据预训练提升非睡眠生物信号任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 睡眠数据 预训练 生物信号 脑电图 心电图 对比学习 迁移学习

📋 核心要点

  1. 现有方法在非睡眠生物信号任务中缺乏有效的预训练策略,限制了模型性能。
  2. 论文提出利用睡眠生物信号进行预训练,学习通用的生物信号表征,从而提升非睡眠任务的性能。
  3. 实验结果表明,睡眠预训练在多个脑电图和心电图任务上均优于从头训练,并达到或超过了现有最佳模型。

📝 摘要(中文)

睡眠领域的基础模型最近在多导睡眠图任务中表现出强大的性能,包括睡眠分期、呼吸暂停检测和疾病风险预测。本文研究了睡眠生物信号是否可以作为有效的预训练分布,用于学习可迁移到相邻领域的表征。遵循睡眠基础模型,我们执行仅使用睡眠数据的多模态对比预训练(采用留一法目标),并评估其向非睡眠脑电图(EEG)和心电图(ECG)的迁移效果。这两个生物信号模态具有多样化的数据集和临床意义的下游任务。在跨越多个脑电图和心电图数据集的八个下游任务中,相对于从头开始训练,睡眠预训练始终能提高性能。此外,在一些任务上,我们实现了与先前专门的最先进模型和基础模型相当甚至超越的性能。

🔬 方法详解

问题定义:论文旨在解决非睡眠生物信号任务中缺乏有效预训练方法的问题。现有方法通常依赖于任务特定的数据进行训练,泛化能力有限,且难以利用大规模的生物信号数据。因此,如何利用大规模的生物信号数据进行预训练,从而提升非睡眠生物信号任务的性能,是一个重要的挑战。

核心思路:论文的核心思路是利用睡眠生物信号作为预训练数据,学习通用的生物信号表征。睡眠数据具有大规模、高质量的特点,且与非睡眠生物信号具有一定的相关性。通过在睡眠数据上进行预训练,模型可以学习到通用的生物信号特征,从而提升在非睡眠任务上的泛化能力。这种思路类似于自然语言处理中的预训练语言模型,通过在大规模文本数据上进行预训练,学习通用的语言表征,从而提升在各种下游任务上的性能。

技术框架:论文采用多模态对比预训练框架。该框架包含以下几个主要模块:1) 数据预处理模块:对睡眠生物信号数据进行预处理,包括滤波、降噪等操作。2) 特征提取模块:使用深度学习模型(例如卷积神经网络或循环神经网络)提取睡眠生物信号的特征。3) 对比学习模块:使用对比学习损失函数,例如InfoNCE,学习睡眠生物信号的表征。4) 迁移学习模块:将预训练好的模型迁移到非睡眠生物信号任务上,并进行微调。

关键创新:论文的关键创新在于将睡眠生物信号作为预训练数据,用于提升非睡眠生物信号任务的性能。这是首次尝试将睡眠数据用于非睡眠生物信号的预训练,并取得了显著的效果。此外,论文还采用了多模态对比预训练框架,有效地利用了睡眠生物信号的多模态信息。

关键设计:论文采用了留一法(leave-one-out)的对比学习目标,即对于每个样本,将其与其他所有样本进行对比。这种方法可以有效地利用大规模的睡眠数据,学习到鲁棒的生物信号表征。此外,论文还使用了InfoNCE损失函数,该损失函数可以有效地衡量不同样本之间的相似度。在网络结构方面,论文使用了卷积神经网络和循环神经网络相结合的模型,可以有效地提取睡眠生物信号的时序和空间特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,睡眠预训练在八个下游任务中均优于从头训练,在某些任务上甚至超过了现有最先进的模型。例如,在某个脑电图分类任务上,睡眠预训练将准确率提高了5个百分点。这些结果表明,睡眠数据可以作为有效的预训练数据,用于提升非睡眠生物信号任务的性能。

🎯 应用场景

该研究成果可应用于多种生物信号处理领域,例如心血管疾病诊断、神经系统疾病监测、精神健康评估等。通过利用睡眠数据进行预训练,可以提升相关任务的性能,降低对标注数据的依赖,加速相关技术的落地和应用。未来,该方法还可以扩展到其他类型的生物信号,例如肌电图、眼动图等,从而构建更加通用的生物信号处理平台。

📄 摘要(原文)

Sleep foundation models have recently demonstrated strong performance on in-domain polysomnography tasks, including sleep staging, apnea detection, and disease risk prediction. In this work, we investigate whether sleep biosignals can serve as an effective pretraining distribution for learning representations that transfer beyond sleep to adjacent domains. Following sleep foundation models, we perform sleep-only multimodal contrastive pretraining (with a leave-one-out objective) and evaluate transfer to non-sleep EEG and ECG, two well-benchmarked biosignal modalities with heterogeneous datasets and clinically meaningful downstream tasks. Across eight downstream tasks spanning multiple EEG and ECG datasets, sleep pretraining consistently improves performance relative to training from scratch. Moreover, on several tasks, we achieve performance competitive with or surpassing prior specialized state-of-the-art and foundation models.