SleepGMUformer: A gated multimodal temporal neural network for sleep staging

作者: Chenjun Zhao, Xuesen Niu, Xinglin Yu, Long Chen, Na Lv, Huiyu Zhou, Aite Zhao

分类: cs.LG, cs.AI

发布日期: 2025-02-20

💡 一句话要点

提出SleepGMUformer，通过门控多模态时序网络进行睡眠分期

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 睡眠分期 多模态融合 时序神经网络 门控机制 脑电图 心率 运动数据

📋 核心要点

现有睡眠分期深度学习方法忽略了不同模态的贡献差异，且原始睡眠数据会干扰频域信息。
SleepGMUformer通过门控机制动态融合多模态信息，并对原始数据进行预处理，提取有效时域特征。
实验结果表明，该模型在两个数据集上均取得了优异的分类精度，超越了现有SOTA模型。

📝 摘要（中文）

睡眠分期是评估睡眠质量和诊断睡眠障碍的关键方法。然而，现有的深度学习方法面临挑战：1) 后融合技术忽略了不同模态的不同贡献；2) 未处理的睡眠数据会干扰频域信息。为了解决这些问题，本文提出了一种门控多模态时序神经网络，用于处理来自WristHR-Motion-Sleep和SleepEDF-78的多域睡眠数据，包括心率、运动、步数、脑电图（Fpz-Cz、Pz-Oz）和眼动图。该模型集成了：1) 用于特征对齐、缺失值处理和脑电图去趋势的预处理模块；2) 用于提取时域中复杂睡眠特征的特征提取模块；3) 用于实时模态加权的动态融合模块。实验表明，在SleepEDF-78数据集上的分类准确率为85.03%，在WristHR-Motion-Sleep数据集上的分类准确率为94.54%。该模型能够处理异构数据集，并且性能优于最先进的模型1.00%-4.00%。

🔬 方法详解

问题定义：现有睡眠分期方法，特别是基于深度学习的方法，在处理多模态睡眠数据时存在两个主要问题。一是后融合策略无法有效利用不同模态的贡献差异，导致信息损失。二是原始睡眠数据中包含噪声和伪迹，直接输入模型会干扰频域信息的提取，影响分期准确性。

核心思路：SleepGMUformer的核心思路是设计一个门控多模态时序神经网络，能够自适应地学习不同模态的重要性，并对原始数据进行预处理以提高数据质量。通过门控机制，模型可以动态地调整不同模态的权重，从而更有效地融合多模态信息。同时，预处理模块可以去除噪声和伪迹，提高特征提取的准确性。

技术框架：SleepGMUformer的整体架构包含三个主要模块：预处理模块、特征提取模块和动态融合模块。预处理模块负责特征对齐、缺失值处理和脑电图去趋势。特征提取模块利用时序神经网络提取时域中的复杂睡眠特征。动态融合模块则使用门控机制，根据不同模态的贡献动态地调整权重，最终进行睡眠分期。

关键创新：SleepGMUformer的关键创新在于其动态融合模块，该模块使用门控机制自适应地学习不同模态的权重。与传统的后融合方法不同，该模块可以根据输入数据的特征动态地调整权重，从而更有效地融合多模态信息。此外，预处理模块也对提高数据质量起到了重要作用。

关键设计：预处理模块包括特征对齐、缺失值处理（例如插值）和脑电图去趋势（例如使用滤波器）。特征提取模块可以使用各种时序神经网络，例如LSTM或Transformer。动态融合模块使用门控单元，根据输入数据的特征计算每个模态的权重。损失函数通常使用交叉熵损失函数，用于衡量预测结果与真实标签之间的差异。

🖼️ 关键图片

📊 实验亮点

SleepGMUformer在SleepEDF-78数据集上实现了85.03%的分类准确率，在WristHR-Motion-Sleep数据集上实现了94.54%的分类准确率。相较于现有最先进的模型，该模型在两个数据集上均取得了1.00%-4.00%的性能提升，证明了其有效性和优越性。

🎯 应用场景

该研究成果可应用于智能睡眠监测设备、睡眠障碍诊断系统和个性化睡眠干预方案。通过更准确的睡眠分期，可以为用户提供更详细的睡眠报告，帮助医生更准确地诊断睡眠障碍，并为用户提供个性化的睡眠改善建议。未来，该技术有望集成到可穿戴设备中，实现实时睡眠监测和干预。

📄 摘要（原文）

Sleep staging is a key method for assessing sleep quality and diagnosing sleep disorders. However, current deep learning methods face challenges: 1) postfusion techniques ignore the varying contributions of different modalities; 2) unprocessed sleep data can interfere with frequency-domain information. To tackle these issues, this paper proposes a gated multimodal temporal neural network for multidomain sleep data, including heart rate, motion, steps, EEG (Fpz-Cz, Pz-Oz), and EOG from WristHR-Motion-Sleep and SleepEDF-78. The model integrates: 1) a pre-processing module for feature alignment, missing value handling, and EEG de-trending; 2) a feature extraction module for complex sleep features in the time dimension; and 3) a dynamic fusion module for real-time modality weighting.Experiments show classification accuracies of 85.03% on SleepEDF-78 and 94.54% on WristHR-Motion-Sleep datasets. The model handles heterogeneous datasets and outperforms state-of-the-art models by 1.00%-4.00%.

SleepGMUformer: A gated multimodal temporal neural network for sleep staging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理