CaMBRAIN: Real-time, Continuous EEG Inference with Causal State Space Models

📄 arXiv: 2605.28792v1 📥 PDF

作者: Abhilash Durgam, Nyle Siddiqui, Jeffrey A. Chan-Santiago, Qiushi Fu, Elakkat D. Gireesh, Mubarak Shah

分类: cs.AI, cs.HC, cs.LG

发布日期: 2026-05-27

备注: 22 pages, 3 figures, 8 tables


💡 一句话要点

CaMBRAIN:基于因果状态空间模型的实时、连续脑电图推断

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 脑电图 状态空间模型 Mamba 实时推理 自监督学习

📋 核心要点

  1. 现有脑电图模型依赖注意力机制,计算复杂度高,且固定长度输入限制了对全局信号的理解。
  2. CaMBRAIN提出基于Mamba的因果状态空间模型,实现脑电信号的实时推断,避免了双向方法的冗余。
  3. 通过多阶段自监督训练流程,CaMBRAIN提升了远程记忆保持能力,并在脑电图数据集上取得了SOTA结果。

📝 摘要(中文)

脑电图(EEG)是监测大脑电活动的关键非侵入性方法。脑电图的时长从几秒到几小时不等,这对现有的深度学习方法提出了重大挑战,主要原因有两个:(1)现有的脑电图模型主要建立在注意力机制之上,随着序列长度的增加,其计算复杂度呈二次方增长;(2)原始脑电信号必须以滑动窗口的方式进行处理,因为输入长度是固定的,这妨碍了对整个信号的全局理解。为此,我们提出了CaMBRAIN,这是第一个基于Mamba的因果状态空间模型(SSM),能够实时推断脑电信号,我们认为,考虑到脑电图的因果、单向性质,双向方法是不必要的昂贵。然而,训练这样的模型并非易事,因为关键的脑电事件可能非常短暂——在几分之一秒内——但却被长达数分钟的间隔分隔开。目前的脑电图方法使用自监督目标来优化信号重建,但这些方法不太适合流式SSM;它们未能明确地训练隐藏状态来保留流式推理所需的显著的远程上下文。因此,我们引入了一个多阶段自监督训练流程,专门用于鼓励远程记忆保持和在脑电信号上的强大性能,同时保持状态空间模型的线性时间复杂度。CaMBRAIN在3个不同的脑电图数据集上取得了最先进(SOTA)的结果,吞吐量比现有模型高出10倍以上,从而实现了第一个能够对可变长度脑电信号进行远程、连续推理的模型。

🔬 方法详解

问题定义:现有脑电图分析方法主要面临两个挑战:一是基于注意力机制的模型计算复杂度随序列长度呈平方级增长,难以处理长时间脑电数据;二是固定长度输入要求导致需要采用滑动窗口处理,无法捕捉全局上下文信息。这些问题限制了脑电图的实时性和连续性分析能力。

核心思路:CaMBRAIN的核心思路是利用状态空间模型(SSM)的线性时间复杂度优势,并结合Mamba架构的selective scan机制,实现对长序列脑电信号的实时处理。同时,考虑到脑电信号的因果性,采用单向模型避免了双向模型的冗余计算。

技术框架:CaMBRAIN的整体框架包括:1)一个基于Mamba的因果状态空间模型,用于对脑电信号进行编码和推理;2)一个多阶段自监督训练流程,用于提升模型的远程记忆保持能力。该流程包含多个阶段,每个阶段采用不同的自监督目标,例如信号重建、上下文预测等,以逐步提升模型的性能。

关键创新:CaMBRAIN的关键创新在于:1)首次将Mamba架构应用于脑电信号分析,实现了线性时间复杂度的实时推理;2)提出了一个多阶段自监督训练流程,专门用于提升状态空间模型在脑电信号上的远程记忆保持能力,克服了传统自监督方法在流式SSM上的不足。

关键设计:CaMBRAIN的关键设计包括:1)采用Mamba架构的selective scan机制,动态地选择性地关注输入序列的不同部分,从而提高模型的效率和性能;2)设计了多阶段自监督训练流程,每个阶段采用不同的自监督目标,以逐步提升模型的性能;3)针对脑电信号的特点,对损失函数进行了调整,例如引入了针对特定脑电事件的损失项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CaMBRAIN在三个不同的脑电图数据集上取得了SOTA结果,并且吞吐量比现有模型高出10倍以上。这表明CaMBRAIN不仅具有更高的准确性,而且具有更快的推理速度,使其能够实时处理长时间的脑电信号。该模型是首个能够对可变长度脑电信号进行远程、连续推理的模型。

🎯 应用场景

CaMBRAIN的潜在应用领域包括:实时脑机接口、癫痫发作预测、睡眠质量监测、认知负荷评估等。该研究的实际价值在于提高了脑电图分析的效率和准确性,为临床诊断和神经科学研究提供了新的工具。未来,CaMBRAIN可以进一步扩展到其他生理信号分析领域,例如心电图、肌电图等。

📄 摘要(原文)

Electroencephalography (EEG) is a critical, non-invasive method to monitor electrical brain activity. EEGs can span anywhere from a couple seconds to multiple hours, posing a major hurdle for existing deep learning methods due to two major factors: (1) existing EEG models are predominantly built upon the attention mechanism, incurring quadratic scaling as the sequence length increases, and (2) raw EEG signals must be processed in a sliding-window fashion due to fixed-length input requirements, preventing global understanding of the entire signal. To this extent, we propose CaMBRAIN - the first Causal, Mamba-based state space model (SSM) capable of real-time inference of EEG signals, arguing that bidirectional approaches are needlessly expensive given the causal, unidirectional nature of EEG. However, training such a model is non-trivial, as crucial EEG events can be extremely brief - within fractions of a second - yet separated by long intervals spanning minutes. Current EEG methods use self-supervised objectives that optimize for signal reconstruction, but these are not well suited for streaming SSMs; they fail to explicitly train the hidden state to retain the salient long-range context needed for streaming inference. We therefore introduce a multi-stage self-supervised training pipeline specifically tailored to encourage long-range memory retention and strong performance on EEG signals, while preserving the linear-time complexity of state space models. CaMBRAIN achieves state-of-the-art (SOTA) results across 3 different EEG datasets with >10x higher throughput than existing models, enabling the first model capable of long-range, continuous inference of variable-length EEG signals.