SleepLM: Natural-Language Intelligence for Human Sleep
作者: Zongzhe Xu, Zitao Shuai, Eideen Mozaffari, Ravi S. Aysola, Rajesh Kumar, Yuzhe Yang
分类: cs.AI
发布日期: 2026-02-27
💡 一句话要点
提出SleepLM,通过自然语言智能实现人类睡眠的对齐、解读和交互。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 睡眠分析 自然语言处理 多模态学习 睡眠语言模型 跨模态检索
📋 核心要点
- 现有睡眠分析系统依赖预定义标签,无法描述和泛化到新的睡眠现象,限制了其应用。
- SleepLM通过构建大规模睡眠-文本数据集,并结合对比对齐、字幕生成和信号重建的预训练目标,实现睡眠生理的语言引导表示。
- 实验表明,SleepLM在零样本、少样本学习、跨模态检索和睡眠字幕生成方面超越现有技术,并展现出语言引导的事件定位能力。
📝 摘要(中文)
本文提出了SleepLM,一个睡眠-语言基础模型家族,旨在实现人类睡眠的对齐、解读以及与自然语言的交互。尽管睡眠至关重要,但现有的基于学习的睡眠分析系统通常在封闭的标签空间(例如,预定义的阶段或事件)中运行,无法描述、查询或泛化到新的睡眠现象。SleepLM弥合了自然语言和多模态多导睡眠图之间的鸿沟,实现了睡眠生理学的语言引导表示。为了支持这种对齐,我们引入了一个多层次的睡眠字幕生成流程,从而构建了首个大规模睡眠-文本数据集,包含来自超过10000人的10万多小时的数据。此外,我们提出了一个统一的预训练目标,结合了对比对齐、字幕生成和信号重建,以更好地捕捉生理保真度和跨模态交互。在真实睡眠理解任务上的大量实验验证了SleepLM在零样本和少样本学习、跨模态检索和睡眠字幕生成方面优于现有技术。重要的是,SleepLM还表现出有趣的能力,包括语言引导的事件定位、有针对性的洞察生成以及对未见任务的零样本泛化。所有代码和数据都将开源。
🔬 方法详解
问题定义:现有基于学习的睡眠分析系统主要依赖于预定义的睡眠阶段或事件标签,这限制了它们对新的、未知的睡眠现象的理解和泛化能力。这些系统缺乏与自然语言的交互能力,无法进行灵活的查询和描述,阻碍了睡眠研究和临床应用的发展。
核心思路:SleepLM的核心思路是将自然语言与多模态多导睡眠图(PSG)数据对齐,从而实现睡眠生理的语言引导表示。通过构建大规模的睡眠-文本数据集,并利用统一的预训练目标,SleepLM能够学习到睡眠生理信号与自然语言描述之间的对应关系,从而实现对睡眠的理解、查询和生成。
技术框架:SleepLM的技术框架主要包含以下几个模块:1) 多层次睡眠字幕生成流程:用于构建大规模的睡眠-文本数据集。2) 统一预训练目标:结合了对比对齐、字幕生成和信号重建,以学习生理保真度和跨模态交互。3) 基于Transformer的睡眠-语言模型:用于实现睡眠生理信号和自然语言之间的映射和交互。整体流程是先通过字幕生成流程构建数据集,然后使用统一预训练目标训练睡眠-语言模型,最后将训练好的模型应用于各种睡眠理解任务。
关键创新:SleepLM的关键创新在于:1) 构建了首个大规模睡眠-文本数据集,为睡眠-语言模型的训练提供了数据基础。2) 提出了统一的预训练目标,有效地结合了对比学习、生成学习和信号重建,从而更好地捕捉睡眠生理信号的特征和跨模态交互。3) 实现了睡眠生理的语言引导表示,使得可以使用自然语言对睡眠进行描述、查询和生成。
关键设计:在数据集构建方面,采用了多层次的字幕生成流程,包括全局描述、阶段描述和事件描述,从而保证了数据集的多样性和信息量。在预训练方面,对比损失用于对齐睡眠生理信号和文本表示,生成损失用于学习文本描述的生成,信号重建损失用于保持生理信号的保真度。模型结构方面,采用了基于Transformer的架构,以充分利用其强大的序列建模能力。
📊 实验亮点
实验结果表明,SleepLM在零样本和少样本学习、跨模态检索和睡眠字幕生成方面均优于现有技术。例如,在睡眠字幕生成任务中,SleepLM的BLEU分数显著高于基线模型。此外,SleepLM还展现出语言引导的事件定位和有针对性的洞察生成能力,证明了其强大的睡眠理解能力。
🎯 应用场景
SleepLM在睡眠医学、健康监测和个性化睡眠干预等领域具有广泛的应用前景。它可以用于自动生成睡眠报告、辅助医生进行睡眠诊断、提供个性化的睡眠建议,并支持基于自然语言的睡眠健康咨询。未来,SleepLM有望成为连接睡眠生理与人类认知的桥梁,促进睡眠研究和临床实践的进步。
📄 摘要(原文)
We present SleepLM, a family of sleep-language foundation models that enable human sleep alignment, interpretation, and interaction with natural language. Despite the critical role of sleep, learning-based sleep analysis systems operate in closed label spaces (e.g., predefined stages or events) and fail to describe, query, or generalize to novel sleep phenomena. SleepLM bridges natural language and multimodal polysomnography, enabling language-grounded representations of sleep physiology. To support this alignment, we introduce a multilevel sleep caption generation pipeline that enables the curation of the first large-scale sleep-text dataset, comprising over 100K hours of data from more than 10,000 individuals. Furthermore, we present a unified pretraining objective that combines contrastive alignment, caption generation, and signal reconstruction to better capture physiological fidelity and cross-modal interactions. Extensive experiments on real-world sleep understanding tasks verify that SleepLM outperforms state-of-the-art in zero-shot and few-shot learning, cross-modal retrieval, and sleep captioning. Importantly, SleepLM also exhibits intriguing capabilities including language-guided event localization, targeted insight generation, and zero-shot generalization to unseen tasks. All code and data will be open-sourced.