Sleep Stage Classification using Multimodal Embedding Fusion from EOG and PSM

作者: Olivier Papillon, Rafik Goubran, James Green, Julien Larivière-Chartier, Caitlin Higginson, Frank Knoefel, Rébecca Robillard

分类: cs.CV

发布日期: 2025-06-07

备注: Submitted to IEEE MeMeA 2025

💡 一句话要点

利用EOG和PSM的多模态嵌入融合进行睡眠分期，提升居家睡眠监测精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 睡眠分期 多模态融合 眼电图(EOG) 压力感应垫(PSM) ImageBind 深度学习 居家睡眠监测

📋 核心要点

传统PSG依赖EEG，设备复杂且不便携，限制了居家睡眠监测的应用。
提出利用ImageBind融合EOG和PSM数据进行睡眠分期的新方法，降低了监测难度。
实验表明，微调后的ImageBind模型显著提升了睡眠分期精度，优于现有方法。

📝 摘要（中文）

准确的睡眠分期对于诊断睡眠障碍至关重要，尤其是在老年人群中。传统的多导睡眠图(PSG)依赖脑电图(EEG)作为金标准，但其复杂性和对专用设备的需求使得居家睡眠监测具有挑战性。为了解决这一局限性，本研究探讨了使用眼电图(EOG)和压力感应垫(PSM)作为侵入性较小的替代方案，用于五阶段睡眠-觉醒分类。本研究引入了一种新方法，利用ImageBind，一种多模态嵌入深度学习模型，将PSM数据与双通道EOG信号集成，用于睡眠分期。据我们所知，这是第一个使用ImageBind融合PSM和EOG数据进行睡眠分期的方法。结果表明，微调ImageBind显著提高了分类精度，优于基于单通道EOG(DeepSleepNet)、仅PSM数据(ViViT)和其他多模态深度学习方法(MBT)的现有模型。值得注意的是，该模型在没有微调的情况下也取得了良好的性能，突出了其在有限标记数据下适应特定任务的能力，使其特别适用于医疗应用。我们使用来自睡眠诊所的85个夜晚的患者记录评估了我们的方法。我们的研究结果表明，预训练的多模态嵌入模型，即使是最初为非医疗领域开发的模型，也可以有效地用于睡眠分期，其准确性接近需要复杂EEG数据的系统。

🔬 方法详解

问题定义：论文旨在解决传统多导睡眠图(PSG)依赖脑电图(EEG)进行睡眠分期时，设备复杂、不便于居家监测的问题。现有方法或者依赖复杂的脑电信号，或者使用单一模态的EOG或PSM数据，精度有限，且难以充分利用不同模态信息的互补性。

核心思路：论文的核心思路是利用多模态深度学习模型ImageBind，将眼电图(EOG)和压力感应垫(PSM)两种模态的数据进行融合，从而在降低设备复杂度的同时，提高睡眠分期的准确性。EOG反映眼球运动，PSM反映身体运动，二者结合可以更全面地反映睡眠状态。ImageBind作为一种预训练的多模态嵌入模型，具有强大的特征提取和融合能力。

技术框架：整体框架包括数据预处理、特征提取和融合、以及睡眠分期分类三个主要阶段。首先，对EOG和PSM数据进行预处理，包括滤波、降噪等。然后，使用ImageBind模型提取EOG和PSM数据的特征，并将两种模态的特征进行融合。最后，使用分类器（如全连接网络）对融合后的特征进行睡眠分期分类。

关键创新：最重要的技术创新点在于首次将ImageBind模型应用于EOG和PSM数据的融合，用于睡眠分期。与现有方法相比，该方法能够更有效地利用多模态信息的互补性，从而提高睡眠分期的准确性。此外，该方法还具有较强的泛化能力，即使在没有微调的情况下也能取得良好的性能。

关键设计：论文的关键设计包括：1) 使用双通道EOG信号，提供更丰富的眼动信息；2) 利用ImageBind的预训练权重，加速模型收敛并提高泛化能力；3) 通过微调ImageBind模型，进一步优化模型在睡眠分期任务上的性能；4) 使用85个夜晚的患者记录进行评估，保证了实验结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，微调后的ImageBind模型在睡眠分期任务上取得了显著的性能提升，优于基于单通道EOG的DeepSleepNet、仅使用PSM数据的ViViT以及其他多模态深度学习方法(MBT)。即使在没有微调的情况下，ImageBind模型也表现出良好的性能，这表明其具有很强的适应性和泛化能力。该研究使用了85个夜晚的患者记录进行评估，保证了实验结果的可靠性。

🎯 应用场景

该研究成果可应用于居家睡眠监测设备，为睡眠障碍患者提供更便捷、舒适的诊断方式。通过降低对专业设备和人员的依赖，有望实现大规模的睡眠健康筛查和管理，尤其是在老年人群中。此外，该方法也可推广到其他生理信号的融合分析，为医疗健康领域提供更智能化的解决方案。

📄 摘要（原文）

Accurate sleep stage classification is essential for diagnosing sleep disorders, particularly in aging populations. While traditional polysomnography (PSG) relies on electroencephalography (EEG) as the gold standard, its complexity and need for specialized equipment make home-based sleep monitoring challenging. To address this limitation, we investigate the use of electrooculography (EOG) and pressure-sensitive mats (PSM) as less obtrusive alternatives for five-stage sleep-wake classification. This study introduces a novel approach that leverages ImageBind, a multimodal embedding deep learning model, to integrate PSM data with dual-channel EOG signals for sleep stage classification. Our method is the first reported approach that fuses PSM and EOG data for sleep stage classification with ImageBind. Our results demonstrate that fine-tuning ImageBind significantly improves classification accuracy, outperforming existing models based on single-channel EOG (DeepSleepNet), exclusively PSM data (ViViT), and other multimodal deep learning approaches (MBT). Notably, the model also achieved strong performance without fine-tuning, highlighting its adaptability to specific tasks with limited labeled data, making it particularly advantageous for medical applications. We evaluated our method using 85 nights of patient recordings from a sleep clinic. Our findings suggest that pre-trained multimodal embedding models, even those originally developed for non-medical domains, can be effectively adapted for sleep staging, with accuracies approaching systems that require complex EEG data.

Sleep Stage Classification using Multimodal Embedding Fusion from EOG and PSM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理