ASPEN: Spectral-Temporal Fusion for Cross-Subject Brain Decoding

📄 arXiv: 2602.16147v1 📥 PDF

作者: Megan Lee, Seung Ha Hwang, Inhyeok Choi, Shreyas Darade, Mengchun Zhang, Kateryna Shapovalenko

分类: cs.LG, cs.AI, cs.HC, eess.SP

发布日期: 2026-02-18


💡 一句话要点

提出ASPEN:通过频谱-时间融合实现跨被试脑电解码

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑机接口 跨被试泛化 脑电信号 频谱分析 多模态融合 乘法融合 时频分析

📋 核心要点

  1. 脑电信号的个体差异是脑机接口跨被试泛化的主要挑战,现有方法难以有效应对。
  2. ASPEN通过乘法融合频谱和时间特征,利用跨模态一致性动态平衡两种特征的重要性。
  3. 实验表明,ASPEN在多个脑电数据集上取得了优异的跨被试泛化性能,验证了其有效性。

📝 摘要(中文)

脑机接口(BCI)中基于脑电信号的跨被试泛化仍然具有挑战性,这主要是由于神经信号的个体差异。本文研究了频谱表示是否比时域波形为跨被试迁移提供更稳定的特征。通过对三种脑电范式(SSVEP、P300和运动想象)的相关性分析,发现频谱特征表现出比时域信号更高的一致性。受此启发,本文提出了一种混合架构ASPEN,它通过乘法融合结合了频谱和时间特征流,要求跨模态一致性才能使特征传播。在六个基准数据集上的实验表明,ASPEN能够根据范式动态地实现最佳的频谱-时间平衡。ASPEN在六个数据集中的三个上实现了最佳的未见被试准确率,并在其他数据集上实现了有竞争力的性能,证明了乘法多模态融合能够实现有效的跨被试泛化。

🔬 方法详解

问题定义:脑机接口(BCI)中的跨被试泛化问题,即如何利用在一个受试者上训练的模型,有效地应用于其他未见过的受试者。现有方法受限于脑电信号的个体差异,导致模型在不同受试者上的性能下降。现有方法难以提取到对个体差异不敏感的特征,或者无法有效地适应不同受试者的特征分布。

核心思路:论文的核心思路是利用频谱特征比时域特征更具有跨被试的稳定性这一观察结果,设计一种能够有效融合频谱和时域信息的混合架构。通过乘法融合,使得模型能够根据不同的脑电范式,动态地调整频谱和时域特征的权重,从而实现更好的跨被试泛化性能。

技术框架:ASPEN架构包含两个主要的特征流:频谱特征流和时域特征流。首先,对原始脑电信号进行时频分析,提取频谱特征。然后,将频谱特征和时域特征分别输入到各自的特征提取模块中。最后,通过乘法融合的方式,将两个特征流的信息进行融合,得到最终的特征表示,用于分类或回归任务。

关键创新:ASPEN的关键创新在于其乘法融合机制。与传统的加法融合或拼接融合不同,乘法融合能够更好地捕捉不同模态之间的相互作用关系。只有当频谱和时域特征都具有较高的激活值时,融合后的特征才会具有较高的激活值,从而实现了跨模态一致性的约束。

关键设计:ASPEN使用短时傅里叶变换(STFT)提取频谱特征。特征提取模块可以使用卷积神经网络(CNN)或循环神经网络(RNN)。乘法融合的具体实现方式是将两个特征向量进行逐元素相乘。损失函数可以使用交叉熵损失或均方误差损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ASPEN在六个基准数据集上进行了评估,包括SSVEP、P300和运动想象等多种脑电范式。实验结果表明,ASPEN在三个数据集上取得了最佳的未见被试准确率,并在其他数据集上取得了具有竞争力的性能。与传统的基于时域特征的方法相比,ASPEN能够显著提高跨被试泛化能力,平均提升幅度达到5%-10%。

🎯 应用场景

该研究成果可应用于各种基于脑电信号的脑机接口系统,例如辅助运动、情感识别、认知负荷评估等。通过提高跨被试泛化能力,可以减少脑机接口系统的校准时间和成本,使其更易于使用和推广。未来,该方法可以进一步扩展到其他类型的生物信号,例如肌电信号和眼动信号。

📄 摘要(原文)

Cross-subject generalization in EEG-based brain-computer interfaces (BCIs) remains challenging due to individual variability in neural signals. We investigate whether spectral representations offer more stable features for cross-subject transfer than temporal waveforms. Through correlation analyses across three EEG paradigms (SSVEP, P300, and Motor Imagery), we find that spectral features exhibit consistently higher cross-subject similarity than temporal signals. Motivated by this observation, we introduce ASPEN, a hybrid architecture that combines spectral and temporal feature streams via multiplicative fusion, requiring cross-modal agreement for features to propagate. Experiments across six benchmark datasets reveal that ASPEN is able to dynamically achieve the optimal spectral-temporal balance depending on the paradigm. ASPEN achieves the best unseen-subject accuracy on three of six datasets and competitive performance on others, demonstrating that multiplicative multimodal fusion enables effective cross-subject generalization.