EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors
作者: Ziyuan Li, Yueyu Sun, Yimeng Zhang
分类: cs.AI
发布日期: 2026-06-01
💡 一句话要点
EVA-Net:利用视频运动先验实现与受试者无关的脑电运动解码
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑机接口 运动解码 跨受试者泛化 多模态学习 视频先验 知识蒸馏 对比学习
📋 核心要点
- 现有脑机接口受试者间差异大,脑电信号非平稳,导致跨受试者泛化能力差。
- 提出EVA-Net,利用动作视频作为运动语义先验,对齐脑电和视频特征,减少受试者差异。
- 在EEGMMI数据集上,EVA-Net的LOSO准确率提升了8.66%,证明了视频先验的有效性。
📝 摘要(中文)
实用的非侵入式脑机接口(BCI)系统需要具有强大的跨受试者泛化能力和最小校准的脑电解码器。然而,受试者间的差异和信号的非平稳性常常将运动语义与受试者特定的噪声纠缠在一起,限制了与受试者无关的解码。最近的多模态方法使用文本作为语义锚点,但文本为固有的动态运动过程提供了稀疏和静态的监督。为了解决这个问题,我们提出了EVA-Net,这是一个两阶段框架,它使用动作视频作为语义先验来进行与受试者无关的脑电运动解码。在第一阶段,使用跨模态和监督对比目标在共享空间中对齐脑电和视频特征,以减少受试者特定的变化。在第二阶段,视频类别原型和知识蒸馏将视频导出的先验知识转移到纯脑电分类器,而不会增加推理开销。在两个公共数据集上的实验表明,EVA-Net实现了强大的与受试者无关的解码性能,包括在EEGMMI上获得了8.66%的LOSO准确率提升。消融实验进一步表明,与本文考虑的文本基线相比,视频提供了更有效的语义锚点。
🔬 方法详解
问题定义:现有的脑机接口(BCI)系统在跨受试者泛化方面面临挑战。由于不同受试者之间脑电信号的差异以及信号本身的非平稳性,使得解码器难以区分运动语义和受试者特定的噪声。以往方法依赖文本作为语义锚点,但文本信息对于动态的运动过程来说过于稀疏和静态,无法提供充分的监督信息。
核心思路:EVA-Net的核心思路是利用动作视频作为运动语义的先验知识,通过跨模态学习将视频中的运动信息迁移到脑电信号的解码中。视频能够提供更丰富、更动态的运动信息,从而更好地指导脑电解码器学习与受试者无关的运动表征。这样设计的目的是为了克服文本信息稀疏和静态的局限性,提高跨受试者的泛化能力。
技术框架:EVA-Net是一个两阶段的框架。第一阶段是跨模态对齐阶段,使用跨模态和监督对比学习目标,将脑电和视频特征映射到共享的特征空间,从而减少受试者特定的差异。第二阶段是知识蒸馏阶段,利用视频类别原型和知识蒸馏技术,将视频中学习到的运动先验知识迁移到纯脑电分类器中,同时避免增加推理阶段的计算开销。
关键创新:EVA-Net的关键创新在于使用动作视频作为运动语义的先验知识,并设计了一个两阶段的框架来实现跨模态对齐和知识迁移。与以往使用文本作为语义锚点的方法相比,视频能够提供更丰富、更动态的运动信息,从而更好地指导脑电解码器学习与受试者无关的运动表征。此外,知识蒸馏的使用保证了在推理阶段不需要依赖视频信息,从而提高了系统的实用性。
关键设计:在跨模态对齐阶段,使用了跨模态对比损失和监督对比损失。跨模态对比损失用于拉近来自同一运动的脑电和视频特征,而监督对比损失用于拉开来自不同运动的脑电和视频特征。在知识蒸馏阶段,使用了视频类别原型作为教师信号,指导脑电分类器学习视频中蕴含的运动信息。网络结构方面,脑电特征提取器可以使用常见的卷积神经网络或循环神经网络,视频特征提取器可以使用预训练的视频理解模型,例如I3D或SlowFast。
🖼️ 关键图片
📊 实验亮点
EVA-Net在两个公共数据集上取得了显著的性能提升。在EEGMMI数据集上,EVA-Net的LOSO准确率达到了8.66%的提升。消融实验表明,视频作为语义锚点比文本更有效。这些结果表明,EVA-Net能够有效地利用视频中的运动信息来提高脑电运动解码的性能,并具有良好的跨受试者泛化能力。
🎯 应用场景
EVA-Net在脑机接口领域具有广泛的应用前景,例如运动功能障碍患者的辅助康复、游戏控制、智能家居控制等。通过提高跨受试者的泛化能力,可以减少BCI系统的校准时间和成本,使其更容易被广泛应用。未来的研究可以探索将EVA-Net应用于更复杂的运动解码任务,例如连续运动控制和精细动作识别。
📄 摘要(原文)
Practical non-invasive Brain-Computer Interface (BCI) systems require EEG decoders with strong cross-subject generalization and minimal calibration. However, inter-subject variability and signal non-stationarity often entangle motor semantics with subject-specific noise, limiting subject-independent decoding. Recent multimodal approaches use text as a semantic anchor, yet text provides sparse and static supervision for inherently dynamic motor processes. To address this issue, we propose EVA-Net, a two-stage framework that uses action videos as semantic priors for subject-independent EEG motor decoding. In the first stage, EEG and video features are aligned in a shared space using cross-modal and supervised contrastive objectives to reduce subject-specific variation. In the second stage, video category prototypes and knowledge distillation transfer video-derived priors to an EEG-only classifier without adding inference overhead. Experiments on two public datasets show that EVA-Net achieves strong subject-independent decoding performance, including an 8.66% LOSO accuracy gain on EEGMMI. Ablation results further suggest that video provides a more effective semantic anchor than the text baseline considered in this work.