CRCC: Contrast-Based Robust Cross-Subject and Cross-Site Representation Learning for EEG

📄 arXiv: 2602.19138v1 📥 PDF

作者: Xiaobin Wong, Zhonghua Zhao, Haoran Guo, Zhengyi Liu, Yu Wu, Feng Yan, Zhiren Wang, Sen Song

分类: q-bio.NC, cs.AI

发布日期: 2026-02-22

备注: First edition


💡 一句话要点

CRCC:基于对比学习的鲁棒脑电跨被试和跨站点表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 脑电信号 跨站点泛化 对比学习 领域自适应 偏差因子分解 重度抑郁症 神经解码

📋 核心要点

  1. 现有脑电解码模型在跨站点泛化能力不足,主要原因是模型学习到了站点相关的偏差。
  2. CRCC框架通过数据标准化和表征约束来减轻偏差影响,实现更好的跨站点泛化。
  3. CRCC在多站点抑郁症脑电数据集上,零样本站点迁移的平衡精度提升了10.7%。

📝 摘要(中文)

基于脑电的神经解码模型由于在训练过程中隐式地利用了结构化的、站点相关的偏差,因此常常无法在不同的采集站点之间泛化。本文将跨站点临床脑电学习重新定义为一个偏差因子分解的泛化问题,其中领域偏移来源于多个相互作用的来源。我们识别了三个基本的偏差因子,并提出了一个通用的训练框架,通过数据标准化和表征层面的约束来减轻它们的影响。我们构建了一个标准化的多站点脑电基准数据集,用于重度抑郁症的研究,并引入了CRCC,一种两阶段训练范式,它结合了编码器-解码器预训练和通过跨被试/站点对比学习以及站点对抗优化的联合微调。CRCC始终优于最先进的基线方法,并在严格的零样本站点迁移下,平衡精度提高了10.7个百分点,证明了对未见环境的鲁棒泛化能力。

🔬 方法详解

问题定义:论文旨在解决脑电信号在跨被试和跨站点情况下泛化能力差的问题。现有的脑电解码模型容易受到采集站点差异的影响,导致模型在新的站点数据上表现不佳。这些站点差异可以被视为一种偏差,模型在训练过程中学习到了这些偏差,从而限制了其泛化能力。

核心思路:论文的核心思路是将跨站点脑电学习问题分解为偏差因子分解的泛化问题。通过识别和消除主要的偏差因子,可以提高模型在不同站点之间的泛化能力。具体来说,论文通过数据标准化和表征层面的约束来减轻这些偏差的影响,从而使模型能够学习到更具鲁棒性的表征。

技术框架:CRCC是一个两阶段的训练框架。第一阶段是编码器-解码器预训练,用于学习脑电信号的基本特征。第二阶段是联合微调,通过跨被试/站点对比学习和站点对抗优化来进一步提高模型的泛化能力。跨被试/站点对比学习旨在拉近来自同一类别的不同被试和站点的数据的表征,同时推开来自不同类别的数据的表征。站点对抗优化旨在使模型学习到的表征对站点信息不敏感。

关键创新:CRCC的关键创新在于它将跨站点脑电学习问题形式化为偏差因子分解的泛化问题,并提出了一个通用的训练框架来减轻偏差的影响。此外,CRCC还引入了跨被试/站点对比学习和站点对抗优化,进一步提高了模型的泛化能力。与现有方法相比,CRCC能够更有效地消除站点偏差,从而实现更好的跨站点泛化性能。

关键设计:在数据标准化方面,论文采用了Z-score标准化。在跨被试/站点对比学习中,论文使用了InfoNCE损失函数。在站点对抗优化中,论文使用了一个梯度反转层。编码器和解码器可以使用各种神经网络结构,例如卷积神经网络或循环神经网络。具体的网络结构和超参数需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRCC在多站点重度抑郁症脑电数据集上进行了评估,结果表明CRCC显著优于现有的基线方法。在严格的零样本站点迁移设置下,CRCC的平衡精度提高了10.7个百分点,证明了其对未见环境的鲁棒泛化能力。此外,消融实验表明,跨被试/站点对比学习和站点对抗优化都对模型的性能提升有贡献。

🎯 应用场景

该研究成果可应用于临床脑电信号分析,例如辅助诊断精神疾病(如抑郁症)、癫痫预测等。通过提高脑电模型的跨站点泛化能力,可以减少对大量特定站点数据的依赖,降低模型部署成本,并促进远程医疗和个性化医疗的发展。未来的研究可以探索更多偏差因子的识别和消除方法,进一步提升模型的鲁棒性和泛化能力。

📄 摘要(原文)

EEG-based neural decoding models often fail to generalize across acquisition sites due to structured, site-dependent biases implicitly exploited during training. We reformulate cross-site clinical EEG learning as a bias-factorized generalization problem, in which domain shifts arise from multiple interacting sources. We identify three fundamental bias factors and propose a general training framework that mitigates their influence through data standardization and representation-level constraints. We construct a standardized multi-site EEG benchmark for Major Depressive Disorder and introduce CRCC, a two-stage training paradigm combining encoder-decoder pretraining with joint fine-tuning via cross-subject/site contrastive learning and site-adversarial optimization. CRCC consistently outperforms state-of-the-art baselines and achieves a 10.7 percentage-point improvement in balanced accuracy under strict zero-shot site transfer, demonstrating robust generalization to unseen environments.