SleepMaMi: A Universal Sleep Foundation Model for Integrating Macro- and Micro-structures

作者: Keondo Park, Younghoon Na, Yourim Choi, Hyunwoo Ryu, Hyun-Woo Shin, Hyung-Sin Kim

分类: cs.AI, cs.LG

发布日期: 2026-02-07

备注: 8 pages, Appendix 9 pages

💡 一句话要点

提出SleepMaMi睡眠基础模型，整合宏观睡眠结构与微观信号特征，提升睡眠分析通用性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 睡眠分析 基础模型 多导睡眠图 对比学习 掩码自编码器 分层编码器 宏观结构 微观特征

📋 核心要点

现有睡眠医学模型侧重局部微观特征，忽略多模态PSG的丰富上下文和整夜睡眠的宏观结构。
SleepMaMi采用分层双编码器，分别建模整夜睡眠的宏观时间依赖性和生物信号的微观短期特征。
SleepMaMi在大型PSG数据集上预训练，并在多种下游任务中超越现有模型，表现出更强的泛化性。

📝 摘要（中文）

本文提出SleepMaMi，一个睡眠基础模型，旨在掌握小时级别的睡眠结构和精细的生物信号形态。该框架采用分层双编码器设计：宏编码器用于建模整夜睡眠的时间依赖性，微编码器用于捕获生物信号的短期特征。宏编码器通过人口统计学引导的对比学习进行训练，将整夜睡眠模式与年龄、性别和BMI等客观受试者元数据对齐，以优化全局表征。微编码器通过混合掩码自编码器(MAE)和多模态对比目标进行优化。SleepMaMi在超过20,000个PSG记录（158K小时）的大规模语料库上进行预训练，在各种下游任务中优于现有的基础模型，展示了卓越的泛化能力和标签高效的临床睡眠分析适应性。

🔬 方法详解

问题定义：现有的睡眠分析模型通常是任务特定的，专注于局部微观结构特征，例如特定的脑电波模式。这些模型忽略了多导睡眠图（PSG）中丰富的多模态上下文信息，并且无法捕捉到整夜睡眠的全局宏观结构，例如睡眠阶段的转换和周期性模式。因此，模型的泛化能力有限，难以适应不同的临床应用场景。

核心思路：SleepMaMi的核心思路是构建一个能够同时理解睡眠的宏观结构（整夜睡眠模式）和微观特征（生物信号形态）的统一基础模型。通过学习这两种不同尺度的信息，模型可以更好地理解睡眠的复杂性，并提高在各种下游任务中的表现。

技术框架：SleepMaMi采用分层双编码器架构。宏编码器（Macro-Encoder）用于建模整夜睡眠的时间依赖性，它接收整夜的PSG数据作为输入，并学习全局的睡眠模式表示。微编码器（Micro-Encoder）用于捕获生物信号的短期特征，它接收短时窗的PSG数据作为输入，并学习精细的信号形态表示。宏编码器通过人口统计学引导的对比学习进行训练，微编码器通过混合掩码自编码器（MAE）和多模态对比目标进行优化。

关键创新：SleepMaMi的关键创新在于其分层双编码器架构和相应的训练策略。宏编码器通过人口统计学信息引导的对比学习，能够更好地学习到与个体特征相关的全局睡眠模式。微编码器通过混合MAE和多模态对比目标，能够有效地学习到生物信号的精细特征。这种宏观和微观信息的整合是现有方法所缺乏的。

关键设计：宏编码器使用Transformer架构，输入是整夜的睡眠数据，通过对比学习，将相似人口统计学特征的睡眠模式拉近，不同的推远。微编码器也使用Transformer架构，输入是短时窗的生物信号，通过MAE重建被mask掉的信号，并通过多模态对比学习，将不同模态的信号对齐。损失函数结合了对比损失和重建损失，以优化模型的性能。

🖼️ 关键图片

📊 实验亮点

SleepMaMi在超过20,000个PSG记录（158K小时）的大规模语料库上进行预训练，并在各种下游任务中取得了显著的性能提升。例如，在睡眠分期任务中，SleepMaMi的准确率超过了现有的基础模型，并且在标签数据较少的情况下，仍然能够保持良好的性能。实验结果表明，SleepMaMi具有卓越的泛化能力和标签高效的临床睡眠分析适应性。

🎯 应用场景

SleepMaMi具有广泛的应用前景，可用于自动睡眠分期、睡眠呼吸暂停检测、睡眠质量评估等临床应用。此外，该模型还可以用于个性化睡眠干预、睡眠障碍诊断和治疗等领域。通过对大规模睡眠数据的学习，SleepMaMi有望为睡眠医学研究和临床实践带来新的突破。

📄 摘要（原文）

While the shift toward unified foundation models has revolutionized many deep learning domains, sleep medicine remains largely restricted to task-specific models that focus on localized micro-structure features. These approaches often neglect the rich, multi-modal context of Polysomnography (PSG) and fail to capture the global macro-structure of a full night's sleep. To address this, we introduce SleepMaMi , a Sleep Foundation Model engineered to master both hour-long sleep architectures and fine-grained signal morphologies. Our framework utilizes a hierarchical dual-encoder design: a Macro-Encoder to model full-night temporal dependencies and a Micro-Encoder to capture short-term characteristics from biosignals. Macro-Encoder is trained via Demographic-Guided Contrastive Learning, which aligns overnight sleep patterns with objective subject metadata, such as age, sex and BMI to refine global representations. Micro-Encoder is optimized via a hybrid Masked Autoencoder (MAE) and multi-modal contrastive objective. Pre-trained on a massive corpus of $>$20,000 PSG recordings (158K hours),SleepMaMi outperforms existing foundation models across a diverse suite of downstream tasks, demonstrating superior generalizability and label-efficient adaptation for clinical sleep analysis.

SleepMaMi: A Universal Sleep Foundation Model for Integrating Macro- and Micro-structures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理