SleepMaMi: A Universal Sleep Foundation Model for Integrating Macro- and Micro-structures
作者: Keondo Park, Younghoon Na, Yourim Choi, Hyunwoo Ryu, Hyun-Woo Shin, Hyung-Sin Kim
分类: cs.AI, cs.LG
发布日期: 2026-02-07
备注: 8 pages, Appendix 9 pages
💡 一句话要点
提出SleepMaMi睡眠基础模型,整合宏观睡眠结构与微观信号特征,提升睡眠分析通用性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 睡眠分析 基础模型 多导睡眠图 对比学习 掩码自编码器 分层编码器 宏观结构 微观特征
📋 核心要点
- 现有睡眠医学模型侧重局部微观特征,忽略多模态PSG的丰富上下文和整夜睡眠的宏观结构。
- SleepMaMi采用分层双编码器,分别建模整夜睡眠的宏观时间依赖性和生物信号的微观短期特征。
- SleepMaMi在大型PSG数据集上预训练,并在多种下游任务中超越现有模型,表现出更强的泛化性。
📝 摘要(中文)
本文提出SleepMaMi,一个睡眠基础模型,旨在掌握小时级别的睡眠结构和精细的生物信号形态。该框架采用分层双编码器设计:宏编码器用于建模整夜睡眠的时间依赖性,微编码器用于捕获生物信号的短期特征。宏编码器通过人口统计学引导的对比学习进行训练,将整夜睡眠模式与年龄、性别和BMI等客观受试者元数据对齐,以优化全局表征。微编码器通过混合掩码自编码器(MAE)和多模态对比目标进行优化。SleepMaMi在超过20,000个PSG记录(158K小时)的大规模语料库上进行预训练,在各种下游任务中优于现有的基础模型,展示了卓越的泛化能力和标签高效的临床睡眠分析适应性。
🔬 方法详解
问题定义:现有的睡眠分析模型通常是任务特定的,专注于局部微观结构特征,例如特定的脑电波模式。这些模型忽略了多导睡眠图(PSG)中丰富的多模态上下文信息,并且无法捕捉到整夜睡眠的全局宏观结构,例如睡眠阶段的转换和周期性模式。因此,模型的泛化能力有限,难以适应不同的临床应用场景。
核心思路:SleepMaMi的核心思路是构建一个能够同时理解睡眠的宏观结构(整夜睡眠模式)和微观特征(生物信号形态)的统一基础模型。通过学习这两种不同尺度的信息,模型可以更好地理解睡眠的复杂性,并提高在各种下游任务中的表现。
技术框架:SleepMaMi采用分层双编码器架构。宏编码器(Macro-Encoder)用于建模整夜睡眠的时间依赖性,它接收整夜的PSG数据作为输入,并学习全局的睡眠模式表示。微编码器(Micro-Encoder)用于捕获生物信号的短期特征,它接收短时窗的PSG数据作为输入,并学习精细的信号形态表示。宏编码器通过人口统计学引导的对比学习进行训练,微编码器通过混合掩码自编码器(MAE)和多模态对比目标进行优化。
关键创新:SleepMaMi的关键创新在于其分层双编码器架构和相应的训练策略。宏编码器通过人口统计学信息引导的对比学习,能够更好地学习到与个体特征相关的全局睡眠模式。微编码器通过混合MAE和多模态对比目标,能够有效地学习到生物信号的精细特征。这种宏观和微观信息的整合是现有方法所缺乏的。
关键设计:宏编码器使用Transformer架构,输入是整夜的睡眠数据,通过对比学习,将相似人口统计学特征的睡眠模式拉近,不同的推远。微编码器也使用Transformer架构,输入是短时窗的生物信号,通过MAE重建被mask掉的信号,并通过多模态对比学习,将不同模态的信号对齐。损失函数结合了对比损失和重建损失,以优化模型的性能。
🖼️ 关键图片
📊 实验亮点
SleepMaMi在超过20,000个PSG记录(158K小时)的大规模语料库上进行预训练,并在各种下游任务中取得了显著的性能提升。例如,在睡眠分期任务中,SleepMaMi的准确率超过了现有的基础模型,并且在标签数据较少的情况下,仍然能够保持良好的性能。实验结果表明,SleepMaMi具有卓越的泛化能力和标签高效的临床睡眠分析适应性。
🎯 应用场景
SleepMaMi具有广泛的应用前景,可用于自动睡眠分期、睡眠呼吸暂停检测、睡眠质量评估等临床应用。此外,该模型还可以用于个性化睡眠干预、睡眠障碍诊断和治疗等领域。通过对大规模睡眠数据的学习,SleepMaMi有望为睡眠医学研究和临床实践带来新的突破。
📄 摘要(原文)
While the shift toward unified foundation models has revolutionized many deep learning domains, sleep medicine remains largely restricted to task-specific models that focus on localized micro-structure features. These approaches often neglect the rich, multi-modal context of Polysomnography (PSG) and fail to capture the global macro-structure of a full night's sleep. To address this, we introduce SleepMaMi , a Sleep Foundation Model engineered to master both hour-long sleep architectures and fine-grained signal morphologies. Our framework utilizes a hierarchical dual-encoder design: a Macro-Encoder to model full-night temporal dependencies and a Micro-Encoder to capture short-term characteristics from biosignals. Macro-Encoder is trained via Demographic-Guided Contrastive Learning, which aligns overnight sleep patterns with objective subject metadata, such as age, sex and BMI to refine global representations. Micro-Encoder is optimized via a hybrid Masked Autoencoder (MAE) and multi-modal contrastive objective. Pre-trained on a massive corpus of $>$20,000 PSG recordings (158K hours),SleepMaMi outperforms existing foundation models across a diverse suite of downstream tasks, demonstrating superior generalizability and label-efficient adaptation for clinical sleep analysis.