MEASURE: Multi-scale Minimal Sufficient Representation Learning for Domain Generalization in Sleep Staging
作者: Sangmin Jo, Jee Seok Yoon, Wootaek Jeong, Kwanseok Oh, Heung-Il Suk
分类: cs.LG, cs.AI
发布日期: 2025-10-14
备注: 12 page, 7 figures, uses IEEE.sty
🔗 代码/项目: GITHUB
💡 一句话要点
提出MEASURE框架,通过多尺度最小充分表征学习提升睡眠分期领域泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 睡眠分期 领域泛化 对比学习 多尺度特征 领域不变表征 生理信号处理 深度学习
📋 核心要点
- 现有睡眠分期模型在未见过的受试者数据上泛化能力不足,无法有效处理生理信号的变异性。
- MEASURE框架通过多尺度最小充分表征学习,减少领域相关信息,同时保留关键的时间和频谱特征。
- 在SleepEDF-20和MASS数据集上的实验表明,MEASURE框架显著优于现有最先进的睡眠分期方法。
📝 摘要(中文)
基于深度学习的自动睡眠分期技术在性能上取得了显著进展,并在睡眠障碍诊断中发挥着关键作用。然而,由于生理信号的变异性,这些模型在未见过的受试者数据上泛化能力较差,导致在分布外场景中性能下降。为了解决这个问题,领域泛化方法被用于确保模型在训练期间对未见领域的泛化性能。在这些技术中,对比学习通过对齐不同领域中相同类别的样本,已被证明在学习领域不变特征方面有效。尽管具有潜力,但许多现有方法不足以提取充分的领域不变表征,因为它们没有明确解决嵌入在样本间非共享信息中的领域特征。本文提出,减少这种领域相关属性(称为过多的领域相关信息)是弥合领域差距的关键。然而,直接减少领域相关属性的策略通常会过度拟合高层信息中的特征,限制了它们利用多个特征级别中编码的各种时间和频谱信息的能力。为了解决这些限制,我们提出了一种新的MEASURE(多尺度最小充分表征学习)框架,该框架有效地减少了领域相关信息,同时保留了睡眠分期分类所需的基本时间和频谱特征。在公开的睡眠分期基准数据集SleepEDF-20和MASS上的大量实验表明,我们提出的方法始终优于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决睡眠分期任务中,模型在未见过的受试者数据上泛化能力差的问题。现有方法难以提取充分的领域不变表征,忽略了样本间非共享信息中嵌入的领域特征,导致模型在新的领域表现不佳。
核心思路:论文的核心思路是减少“过多的领域相关信息”,即那些与睡眠阶段分类无关,但与特定领域相关的属性。通过最小化这些信息,同时保留对分类至关重要的时间和频谱特征,从而提高模型的领域泛化能力。这样设计的目的是使模型更加关注本质的睡眠阶段特征,而不是受试者或数据集特有的噪声。
技术框架:MEASURE框架包含以下主要模块:1) 多尺度特征提取器:用于提取不同尺度的时间和频谱特征。2) 领域不变表征学习模块:通过对比学习对齐不同领域的相同类别样本,学习领域不变特征。3) 领域相关信息抑制模块:显式地减少领域相关属性,防止模型过度拟合特定领域的特征。4) 分类器:基于学习到的领域不变表征进行睡眠分期。
关键创新:MEASURE框架的关键创新在于其显式地减少领域相关信息,而不是仅仅依赖对比学习来对齐特征。通过多尺度特征提取,模型能够捕捉不同层次的时间和频谱信息,从而更好地保留对分类至关重要的特征。这种方法避免了直接减少领域相关属性可能导致的高层特征过度拟合问题。
关键设计:MEASURE框架的关键设计包括:1) 多尺度特征提取器的具体结构(例如,使用不同大小的卷积核)。2) 对比学习损失函数的选择和参数设置(例如,温度参数)。3) 领域相关信息抑制模块的具体实现方式(例如,使用对抗学习或信息瓶颈)。4) 损失函数的权重设置,以平衡领域不变表征学习和领域相关信息抑制。
🖼️ 关键图片
📊 实验亮点
MEASURE框架在SleepEDF-20和MASS数据集上均取得了显著的性能提升,超越了现有的最先进方法。具体性能数据需要在论文中查找,但摘要表明该方法在领域泛化能力方面具有明显优势,能够有效应对不同受试者和数据集之间的差异。
🎯 应用场景
该研究成果可应用于自动睡眠诊断系统,提高其在不同人群和数据集上的准确性和可靠性。这有助于医生更有效地诊断和治疗睡眠障碍,改善患者的生活质量。此外,该方法也可推广到其他生理信号分析领域,如心电信号分析等,具有广泛的应用前景。
📄 摘要(原文)
Deep learning-based automatic sleep staging has significantly advanced in performance and plays a crucial role in the diagnosis of sleep disorders. However, those models often struggle to generalize on unseen subjects due to variability in physiological signals, resulting in degraded performance in out-of-distribution scenarios. To address this issue, domain generalization approaches have recently been studied to ensure generalized performance on unseen domains during training. Among those techniques, contrastive learning has proven its validity in learning domain-invariant features by aligning samples of the same class across different domains. Despite its potential, many existing methods are insufficient to extract adequately domain-invariant representations, as they do not explicitly address domain characteristics embedded within the unshared information across samples. In this paper, we posit that mitigating such domain-relevant attributes-referred to as excess domain-relevant information-is key to bridging the domain gap. However, the direct strategy to mitigate the domain-relevant attributes often overfits features at the high-level information, limiting their ability to leverage the diverse temporal and spectral information encoded in the multiple feature levels. To address these limitations, we propose a novel MEASURE (Multi-scalE minimAl SUfficient Representation lEarning) framework, which effectively reduces domain-relevant information while preserving essential temporal and spectral features for sleep stage classification. In our exhaustive experiments on publicly available sleep staging benchmark datasets, SleepEDF-20 and MASS, our proposed method consistently outperformed state-of-the-art methods. Our code is available at : https://github.com/ku-milab/Measure