SpecMoE: Spectral Mixture-of-Experts Foundation Model for Cross-Species EEG Decoding
作者: D. Darankoum, C. Habermacher, J. Volle, S. Grudinin
分类: cs.LG, cs.AI, cs.HC
发布日期: 2026-03-17
备注: 34 pages (12 pages Main text and 22 pages Supplementary Information)
💡 一句话要点
SpecMoE:用于跨物种脑电解码的谱混合专家基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电解码 基础模型 自监督学习 混合专家 时频分析 跨物种泛化 SpecHi-Net
📋 核心要点
- 现有脑电解码基础模型主要依赖时域和频域的独立掩蔽,易于学习低频信息,忽略了高低频之间的复杂关联。
- 论文提出SpecMoE模型,使用高斯平滑掩蔽方案作用于STFT谱图,迫使模型学习更复杂的时频神经模式。
- SpecMoE在多种脑电解码任务上取得了SOTA性能,并展现出优秀的跨物种和跨个体泛化能力。
📝 摘要(中文)
脑电图(EEG)信号中神经活动的解码是连接神经科学和人工智能的关键挑战。基础模型在广义脑电解码方面取得了进展,但许多现有框架主要依赖于自监督预训练期间对原始信号进行单独的时间和频谱掩蔽。这种策略通常倾向于将学习偏向于高频振荡,因为低频节律模式可以很容易地从未掩蔽的信号中推断出来。我们引入了一种基础模型,该模型利用应用于短时傅里叶变换(STFT)图的新型高斯平滑掩蔽方案。通过联合应用时间、频率和时频高斯掩码,我们使重建任务更具挑战性,迫使模型学习高频和低频域中复杂的神经模式。为了在这种激进的掩蔽策略下有效地恢复信号,我们设计了SpecHi-Net,一种具有多个编码和解码阶段的U型分层架构。为了加速大规模预训练,我们将数据划分为三个子集,每个子集用于训练一个独立的专家模型。然后,我们通过SpecMoE(一种由学习的频谱门控机制引导的专家混合框架)组合这些模型。SpecMoE在各种脑电解码任务中实现了最先进的性能,包括睡眠分期、情绪识别、运动想象分类、异常信号检测和药物效果预测。重要的是,该模型表现出强大的跨物种和跨受试者泛化能力,在人类和小鼠脑电数据集上均保持较高的准确性。
🔬 方法详解
问题定义:现有脑电解码基础模型在自监督预训练阶段,通常采用独立的时域和频域掩蔽策略。这种策略的缺点在于,模型容易从未被掩蔽的信号部分推断出低频信息,从而导致模型学习偏向于高频振荡,忽略了高低频之间的复杂神经模式关联。因此,如何设计一种更有效的掩蔽策略,迫使模型学习更全面的时频信息,是本文要解决的关键问题。
核心思路:论文的核心思路是设计一种更具挑战性的掩蔽策略,迫使模型学习高频和低频域中复杂的神经模式。具体来说,论文提出了一种基于高斯平滑的掩蔽方案,该方案同时作用于短时傅里叶变换(STFT)谱图的时域、频域和时频域。这种联合掩蔽策略使得模型难以通过简单的推断来恢复被掩蔽的信号,从而迫使模型学习更深层次的神经模式。
技术框架:SpecMoE的整体框架包括三个主要部分:SpecHi-Net编码器-解码器架构、高斯平滑掩蔽策略和混合专家(MoE)机制。首先,输入脑电信号经过STFT变换得到谱图。然后,使用高斯平滑掩蔽策略对谱图进行掩蔽。接下来,SpecHi-Net利用U型分层架构对掩蔽后的谱图进行编码和解码,以重建原始谱图。最后,为了加速大规模预训练,论文将数据划分为三个子集,每个子集训练一个独立的专家模型,并通过SpecMoE进行集成,SpecMoE使用学习的频谱门控机制来组合这些专家模型。
关键创新:论文的关键创新在于提出了高斯平滑掩蔽策略和SpecMoE混合专家框架。高斯平滑掩蔽策略通过联合应用时间、频率和时频高斯掩码,使得重建任务更具挑战性,迫使模型学习更复杂的神经模式。SpecMoE通过学习的频谱门控机制,有效地集成了多个专家模型,从而加速了大规模预训练,并提高了模型的性能。
关键设计:SpecHi-Net采用U型分层架构,包含多个编码和解码阶段,以有效地恢复被掩蔽的信号。高斯掩蔽的方差是关键参数,控制着掩蔽的强度和范围。SpecMoE中的频谱门控机制使用一个可学习的神经网络来根据输入信号的频谱特征,动态地选择合适的专家模型。损失函数采用均方误差(MSE)来衡量重建谱图与原始谱图之间的差异。
🖼️ 关键图片
📊 实验亮点
SpecMoE在包括睡眠分期、情绪识别、运动想象分类、异常信号检测和药物效果预测等多种脑电解码任务中取得了最先进的性能。更重要的是,该模型展现出强大的跨物种和跨受试者泛化能力,在人类和小鼠脑电数据集上均保持较高的准确性,表明其学习到的特征具有较强的通用性。
🎯 应用场景
该研究成果可广泛应用于脑机接口、神经疾病诊断、精神状态监测等领域。例如,可以用于开发更精准的睡眠监测设备、情绪识别系统、运动想象控制系统,以及辅助诊断癫痫等神经系统疾病。此外,该模型强大的跨物种泛化能力,使其在动物神经科学研究中也具有重要价值。
📄 摘要(原文)
Decoding the orchestration of neural activity in electroencephalography (EEG) signals is a central challenge in bridging neuroscience with artificial intelligence. Foundation models have made strides in generalized EEG decoding, yet many existing frameworks primarily relying on separate temporal and spectral masking of raw signals during self-supervised pretraining. Such strategies often tend to bias learning toward high-frequency oscillations, as low-frequency rhythmic patterns can be easily inferred from the unmasked signal. We introduce a foundation model that utilizes a novel Gaussian-smoothed masking scheme applied to short-time Fourier transform (STFT) maps. By jointly applying time, frequency, and time-frequency Gaussian masks, we make the reconstruction task much more challenging, forcing the model to learn intricate neural patterns across both high- and low-frequency domains. To effectively recover signals under this aggressive masking strategy, we design SpecHi-Net, a U-shaped hierarchical architecture with multiple encoding and decoding stages. To accelerate large-scale pretraining, we partition the data into three subsets, each used to train an independent expert model. We then combine these models through SpecMoE, a mixture of experts framework guided by a learned spectral gating mechanism. SpecMoE achieves state-of-the-art performance across a diverse set of EEG decoding tasks, including sleep staging, emotion recognition, motor imagery classification, abnormal signal detection, and drug effect prediction. Importantly, the model demonstrates strong cross-species and cross-subject generalization, maintaining high accuracy on both human and murine EEG datasets.