SleepGMUformer: A gated multimodal temporal neural network for sleep staging

📄 arXiv: 2502.14227v1 📥 PDF

作者: Chenjun Zhao, Xuesen Niu, Xinglin Yu, Long Chen, Na Lv, Huiyu Zhou, Aite Zhao

分类: cs.LG, cs.AI

发布日期: 2025-02-20


💡 一句话要点

提出SleepGMUformer,通过门控多模态时序网络进行睡眠分期

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 睡眠分期 多模态融合 时序神经网络 门控机制 脑电图 心率 运动数据

📋 核心要点

  1. 现有睡眠分期深度学习方法忽略了不同模态的贡献差异,且原始睡眠数据会干扰频域信息。
  2. SleepGMUformer通过门控机制动态融合多模态信息,并对原始数据进行预处理,提取有效时域特征。
  3. 实验结果表明,该模型在两个数据集上均取得了优异的分类精度,超越了现有SOTA模型。

📝 摘要(中文)

睡眠分期是评估睡眠质量和诊断睡眠障碍的关键方法。然而,现有的深度学习方法面临挑战:1) 后融合技术忽略了不同模态的不同贡献;2) 未处理的睡眠数据会干扰频域信息。为了解决这些问题,本文提出了一种门控多模态时序神经网络,用于处理来自WristHR-Motion-Sleep和SleepEDF-78的多域睡眠数据,包括心率、运动、步数、脑电图(Fpz-Cz、Pz-Oz)和眼动图。该模型集成了:1) 用于特征对齐、缺失值处理和脑电图去趋势的预处理模块;2) 用于提取时域中复杂睡眠特征的特征提取模块;3) 用于实时模态加权的动态融合模块。实验表明,在SleepEDF-78数据集上的分类准确率为85.03%,在WristHR-Motion-Sleep数据集上的分类准确率为94.54%。该模型能够处理异构数据集,并且性能优于最先进的模型1.00%-4.00%。

🔬 方法详解

问题定义:现有睡眠分期方法,特别是基于深度学习的方法,在处理多模态睡眠数据时存在两个主要问题。一是后融合策略无法有效利用不同模态的贡献差异,导致信息损失。二是原始睡眠数据中包含噪声和伪迹,直接输入模型会干扰频域信息的提取,影响分期准确性。

核心思路:SleepGMUformer的核心思路是设计一个门控多模态时序神经网络,能够自适应地学习不同模态的重要性,并对原始数据进行预处理以提高数据质量。通过门控机制,模型可以动态地调整不同模态的权重,从而更有效地融合多模态信息。同时,预处理模块可以去除噪声和伪迹,提高特征提取的准确性。

技术框架:SleepGMUformer的整体架构包含三个主要模块:预处理模块、特征提取模块和动态融合模块。预处理模块负责特征对齐、缺失值处理和脑电图去趋势。特征提取模块利用时序神经网络提取时域中的复杂睡眠特征。动态融合模块则使用门控机制,根据不同模态的贡献动态地调整权重,最终进行睡眠分期。

关键创新:SleepGMUformer的关键创新在于其动态融合模块,该模块使用门控机制自适应地学习不同模态的权重。与传统的后融合方法不同,该模块可以根据输入数据的特征动态地调整权重,从而更有效地融合多模态信息。此外,预处理模块也对提高数据质量起到了重要作用。

关键设计:预处理模块包括特征对齐、缺失值处理(例如插值)和脑电图去趋势(例如使用滤波器)。特征提取模块可以使用各种时序神经网络,例如LSTM或Transformer。动态融合模块使用门控单元,根据输入数据的特征计算每个模态的权重。损失函数通常使用交叉熵损失函数,用于衡量预测结果与真实标签之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SleepGMUformer在SleepEDF-78数据集上实现了85.03%的分类准确率,在WristHR-Motion-Sleep数据集上实现了94.54%的分类准确率。相较于现有最先进的模型,该模型在两个数据集上均取得了1.00%-4.00%的性能提升,证明了其有效性和优越性。

🎯 应用场景

该研究成果可应用于智能睡眠监测设备、睡眠障碍诊断系统和个性化睡眠干预方案。通过更准确的睡眠分期,可以为用户提供更详细的睡眠报告,帮助医生更准确地诊断睡眠障碍,并为用户提供个性化的睡眠改善建议。未来,该技术有望集成到可穿戴设备中,实现实时睡眠监测和干预。

📄 摘要(原文)

Sleep staging is a key method for assessing sleep quality and diagnosing sleep disorders. However, current deep learning methods face challenges: 1) postfusion techniques ignore the varying contributions of different modalities; 2) unprocessed sleep data can interfere with frequency-domain information. To tackle these issues, this paper proposes a gated multimodal temporal neural network for multidomain sleep data, including heart rate, motion, steps, EEG (Fpz-Cz, Pz-Oz), and EOG from WristHR-Motion-Sleep and SleepEDF-78. The model integrates: 1) a pre-processing module for feature alignment, missing value handling, and EEG de-trending; 2) a feature extraction module for complex sleep features in the time dimension; and 3) a dynamic fusion module for real-time modality weighting.Experiments show classification accuracies of 85.03% on SleepEDF-78 and 94.54% on WristHR-Motion-Sleep datasets. The model handles heterogeneous datasets and outperforms state-of-the-art models by 1.00%-4.00%.