MSGM: A Multi-Scale Spatiotemporal Graph Mamba for EEG Emotion Recognition

📄 arXiv: 2507.15914v1 📥 PDF

作者: Hanwen Liu, Yifeng Gong, Zuwei Yan, Zeheng Zhuang, Jiaxuan Lu

分类: eess.SP, cs.LG

发布日期: 2025-07-21


💡 一句话要点

提出MSGM:一种用于脑电情绪识别的多尺度时空图Mamba模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 脑电情绪识别 多尺度时空图 Mamba架构 图卷积网络 神经解剖学先验

📋 核心要点

  1. 现有脑电情绪识别方法难以捕捉多尺度时空动态,且计算效率不足以支持实时应用。
  2. MSGM通过多窗口时间分割、双峰空间图建模和Mamba架构融合,有效捕捉细粒度情绪波动和分层大脑连接。
  3. 实验表明,MSGM在多个数据集上超越现有方法,并在NVIDIA Jetson Xavier NX上实现毫秒级推理。

📝 摘要(中文)

基于脑电的情绪识别面临着捕捉多尺度时空动态和确保实时应用计算效率的挑战。现有方法通常过度简化时间粒度和空间层级结构,限制了准确性。为了克服这些挑战,我们提出了多尺度时空图Mamba(MSGM),这是一个新颖的框架,集成了多窗口时间分割、双峰空间图建模,并通过Mamba架构实现高效融合。通过跨不同时间尺度分割脑电信号,并构建具有神经解剖学先验的全局-局部图,MSGM有效地捕捉了细粒度的情绪波动和分层大脑连接。多深度图卷积网络(GCN)和token嵌入融合模块,与Mamba的状态空间建模相结合,实现了线性复杂度的动态时空交互。值得注意的是,仅使用一个MSST-Mamba层,MSGM在SEED、THU-EP和FACED数据集上超越了该领域的领先方法,在独立于受试者的情绪分类中优于基线,同时在NVIDIA Jetson Xavier NX上实现了强大的准确性和毫秒级的推理速度。

🔬 方法详解

问题定义:脑电情绪识别的关键挑战在于如何有效地捕捉脑电信号中复杂的多尺度时空动态信息,同时保证计算效率,以满足实时应用的需求。现有方法通常在时间粒度和空间层级结构上进行过度简化,导致识别精度受限。

核心思路:MSGM的核心思路是利用多尺度时间分割提取不同时间粒度的情绪特征,并结合神经解剖学先验构建双峰空间图,从而更全面地捕捉脑电信号的时空信息。Mamba架构则用于高效地融合这些多尺度时空特征,实现线性复杂度的动态交互。

技术框架:MSGM的整体框架包括以下几个主要模块:1) 多窗口时间分割模块,用于将脑电信号分割成不同时间尺度的片段;2) 双峰空间图建模模块,利用神经解剖学先验构建全局-局部图,捕捉大脑不同区域之间的连接关系;3) 多深度图卷积网络(GCN)和token嵌入融合模块,用于提取空间图特征并进行融合;4) Mamba架构,用于动态地建模时空特征之间的交互。

关键创新:MSGM的关键创新在于:1) 提出了多尺度时空图建模方法,能够更全面地捕捉脑电信号的时空动态信息;2) 将Mamba架构引入脑电情绪识别领域,实现了高效的时空特征融合和动态建模;3) 结合神经解剖学先验构建双峰空间图,提高了空间建模的准确性。

关键设计:MSGM的关键设计包括:1) 多窗口时间分割的窗口大小设置,需要根据具体数据集进行调整;2) 双峰空间图的构建方式,包括全局图和局部图的连接方式和权重设置;3) 多深度GCN的网络结构和参数设置;4) Mamba架构的参数设置,包括状态维度、选择维度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSGM在SEED、THU-EP和FACED数据集上取得了显著的性能提升,超越了现有的领先方法。特别是在SEED数据集上,MSGM在subject-independent情绪分类中表现出色。更重要的是,MSGM在NVIDIA Jetson Xavier NX上实现了毫秒级的推理速度,证明了其在实时应用中的潜力。仅使用一个MSST-Mamba层,MSGM就能够达到如此优异的性能,体现了其高效性。

🎯 应用场景

MSGM在脑电情绪识别领域具有广泛的应用前景,例如情感计算、人机交互、精神疾病诊断和治疗等。该研究成果可以用于开发更智能、更个性化的情感识别系统,提升用户体验,并为精神疾病的早期诊断和干预提供新的技术手段。未来,该方法可以扩展到其他生理信号分析和时空数据建模任务中。

📄 摘要(原文)

EEG-based emotion recognition struggles with capturing multi-scale spatiotemporal dynamics and ensuring computational efficiency for real-time applications. Existing methods often oversimplify temporal granularity and spatial hierarchies, limiting accuracy. To overcome these challenges, we propose the Multi-Scale Spatiotemporal Graph Mamba (MSGM), a novel framework integrating multi-window temporal segmentation, bimodal spatial graph modeling, and efficient fusion via the Mamba architecture. By segmenting EEG signals across diverse temporal scales and constructing global-local graphs with neuroanatomical priors, MSGM effectively captures fine-grained emotional fluctuations and hierarchical brain connectivity. A multi-depth Graph Convolutional Network (GCN) and token embedding fusion module, paired with Mamba's state-space modeling, enable dynamic spatiotemporal interaction at linear complexity. Notably, with just one MSST-Mamba layer, MSGM surpasses leading methods in the field on the SEED, THU-EP, and FACED datasets, outperforming baselines in subject-independent emotion classification while achieving robust accuracy and millisecond-level inference on the NVIDIA Jetson Xavier NX.