Next-Token Prediction Learns Generalisable Representations of Sleep Physiology

📄 arXiv: 2606.09605v1 📥 PDF

作者: Jonathan F. Carter, Lionel Tarassenko

分类: cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出Hypnos模型以解决多模态生理信号表示学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生理信号 下一个标记预测 自监督学习 睡眠医学 心脏病学 神经学 RQ-Transformer 表示学习

📋 核心要点

  1. 现有的生理信号表示学习方法在处理信号的随机性和语义不变性方面存在不足,限制了其应用效果。
  2. 本文提出的Hypnos模型通过下一个标记预测方法,利用多模态数据进行联合训练,提供了一种新的表示学习方式。
  3. Hypnos在多个基准测试中表现优异,尤其在睡眠阶段分类中,使用更少的标记数据达到了与强监督模型相当的性能。

📝 摘要(中文)

基础模型为压缩多模态生理信号提供了有前景的途径,广泛应用于睡眠医学、心脏病学、神经学等领域。现有模型通常采用掩码重建或对比目标进行训练,但掩码重建不适合这些信号的随机特性,而对比方法依赖于正对定义,生理信号的语义不变性尚不清楚。本文提出了一种简单且可扩展的替代方案——下一个标记预测。我们开发了Hypnos,一个多模态睡眠基础模型,使用来自超过20,000个过夜多导睡眠监测记录的八种不同传感模式(如EEG、ECG、呼吸信号)进行训练。Hypnos在多个基准测试中显著超越现有基础模型,并在睡眠阶段分类中使用100倍更少的标记数据达到了强监督基线的性能。

🔬 方法详解

问题定义:本文旨在解决多模态生理信号的表示学习问题,现有方法如掩码重建和对比学习在处理信号的随机性和语义不变性方面存在局限性。

核心思路:论文提出通过下一个标记预测作为自监督目标,利用多模态信号的特征进行联合训练,从而获得更具泛化能力的表示。

技术框架:Hypnos模型的整体架构包括数据预处理、标记化、模型训练和嵌入生成四个主要模块。首先,将不同的生理信号通过残差向量量化进行标记化,然后使用自回归RQ-Transformer进行训练。

关键创新:最重要的创新点在于采用下一个标记预测作为训练目标,这种方法比传统的掩码重建和对比学习更适合处理生理信号的随机特性。

关键设计:模型使用了大规模的自回归RQ-Transformer架构,训练过程中采用了多模态数据流的并行预测,且在训练时使用了适应性损失函数以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个基准测试中,Hypnos模型显著超越现有基础模型。在睡眠阶段分类任务中,Hypnos使用100倍更少的标记数据,达到了与强监督基线相当的性能。此外,Hypnos在白天生理信号的应用中也表现出色,超越了专门的ECG基础模型在房颤检测中的表现。

🎯 应用场景

Hypnos模型在睡眠医学、心脏病学和神经学等领域具有广泛的应用潜力。通过有效地从多模态生理信号中提取表示,Hypnos可以帮助医生更好地进行疾病诊断和健康监测,提升临床决策的准确性和效率。未来,该模型还可能扩展到其他生理信号的分析和处理。

📄 摘要(原文)

Foundation models offer a promising route to compress multi-modal physiological signals into compact representations of human health, with broad applications across sleep medicine, cardiology, neurology and other healthcare domains. Existing models have typically been trained with masked-reconstruction or contrastive objectives. However, masked reconstruction may be poorly suited to the stochastic nature of these signals, while contrastive approaches rely on positive-pair definitions despite the semantic invariances of physiological signals being poorly understood. In this work, we show that next-token prediction is a simple and scalable alternative. We develop Hypnos, a multi-modal sleep foundation model trained using eight different sensing modalities (e.g. EEG, ECG, respiratory signals) drawn from over 20,000 overnight polysomnography recordings. We tokenize each modality into streams of discrete tokens using residual vector quantization, then train a large auto-regressive RQ-Transformer to jointly predict the next token across all modalities in parallel. After training, Hypnos can be applied to continuous streams of sensor data from any subset of supported modalities, generating embeddings for downstream tasks. Across a range of benchmarks, Hypnos significantly outperforms existing foundation models. In sleep stage classification, we match the performance of strong supervised baselines on held-out test sets whilst using (100\times) less labelled data. Hypnos even generalises to daytime physiology, surpassing a dedicated ECG foundation model at detecting atrial fibrillation. Our results demonstrate that next-token prediction is a strong self-supervised objective for representation learning from multi-modal physiological signals.