Visual Neural Decoding via Improved Visual-EEG Semantic Consistency

📄 arXiv: 2408.06788v1 📥 PDF

作者: Hongzhou Chen, Lianghua He, Yihang Liu, Longzhen Yang

分类: cs.CV, cs.HC

发布日期: 2024-08-13


💡 一句话要点

提出Visual-EEG语义解耦框架,提升脑电信号视觉神经解码的语义一致性

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 脑电信号解码 视觉神经解码 语义一致性 跨模态学习 脑机接口

📋 核心要点

  1. 现有EEG视觉解码方法直接将EEG特征映射到CLIP嵌入空间,易引入偏差,导致语义不一致。
  2. 提出Visual-EEG语义解耦框架,显式提取视觉和脑电信号的语义相关特征,优化对齐。
  3. 实验表明,该方法在零样本神经解码任务中取得了SOTA结果,验证了其有效性。

📝 摘要(中文)

视觉神经解码旨在从人脑活动中提取和解释原始视觉体验。近年来,基于度量学习的脑电(EEG)视觉解码方法取得了显著进展,并展示了从脑活动中解码新视觉类别的可行性。然而,直接将脑电特征映射到CLIP嵌入空间的方法可能引入映射偏差,导致特征之间的语义不一致,从而降低对齐效果并损害解码性能。为了进一步探索视觉和神经信号之间的语义一致性,本文构建了一个联合语义空间,并提出了一个Visual-EEG语义解耦框架,该框架显式地提取这两种模态的语义相关特征,以促进最佳对齐。具体而言,引入了一个跨模态信息解耦模块来指导从模态中提取语义相关信息。然后,通过量化视觉图像和脑电特征之间的互信息,我们观察到解码性能与互信息的大小之间存在很强的正相关关系。此外,受到神经科学中视觉对象理解机制的启发,我们在对齐过程中提出了一种类内几何一致性方法。该策略将同一类中的视觉样本映射到一致的神经模式,从而进一步增强了脑电视觉解码的鲁棒性和性能。在大型图像-脑电数据集上的实验表明,我们的方法在零样本神经解码任务中取得了最先进的结果。

🔬 方法详解

问题定义:现有基于度量学习的脑电(EEG)视觉解码方法,特别是那些直接将脑电特征映射到CLIP嵌入空间的方法,存在映射偏差问题。这种偏差会导致视觉和脑电特征之间的语义不一致,降低对齐精度,最终损害解码性能。因此,如何提升视觉和脑电信号之间的语义一致性是本文要解决的核心问题。

核心思路:本文的核心思路是通过构建一个联合语义空间,并在此空间中显式地提取视觉和脑电信号的语义相关特征。通过解耦模态信息,减少模态间的干扰,从而更好地对齐视觉和脑电信号。此外,借鉴神经科学的视觉对象理解机制,引入类内几何一致性约束,进一步提升解码的鲁棒性。

技术框架:该框架主要包含以下几个模块:1) 跨模态信息解耦模块:用于指导从视觉和脑电信号中提取语义相关信息,减少模态间的干扰。2) 互信息量化模块:用于量化视觉图像和脑电特征之间的互信息,指导模型优化。3) 类内几何一致性模块:用于将同一类中的视觉样本映射到一致的神经模式,增强解码的鲁棒性。整体流程是先通过解耦模块提取语义特征,然后通过互信息量化指导训练,最后通过类内几何一致性约束优化对齐。

关键创新:该论文的关键创新点在于:1) 语义解耦:通过跨模态信息解耦模块,显式地提取语义相关特征,减少模态间的干扰,提升语义一致性。2) 类内几何一致性:借鉴神经科学的视觉对象理解机制,引入类内几何一致性约束,增强解码的鲁棒性。3) 互信息指导:通过量化视觉图像和脑电特征之间的互信息,指导模型优化,提升解码性能。与现有方法相比,该方法更注重语义一致性和鲁棒性。

关键设计:1) 跨模态信息解耦模块:具体实现方式未知,但其目标是提取语义相关信息,并抑制模态特有信息。2) 互信息量化模块:采用某种互信息估计方法(具体未知)来量化视觉图像和脑电特征之间的互信息。3) 类内几何一致性模块:将同一类别的视觉样本映射到相似的脑电特征表示,具体实现方式未知,可能涉及到某种损失函数的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在大型图像-脑电数据集上进行了实验,并在零样本神经解码任务中取得了state-of-the-art的结果。具体性能数据未知,但摘要中明确指出该方法优于现有方法,并在鲁棒性和性能上均有提升。互信息分析表明,解码性能与互信息大小呈正相关。

🎯 应用场景

该研究成果可应用于脑机接口(BCI)领域,例如辅助视觉障碍人士、实现意念控制等。通过更准确地解码脑电信号,可以提升BCI系统的性能和用户体验。未来,该技术还可能应用于神经疾病诊断、认知功能评估等领域,具有重要的临床价值。

📄 摘要(原文)

Visual neural decoding refers to the process of extracting and interpreting original visual experiences from human brain activity. Recent advances in metric learning-based EEG visual decoding methods have delivered promising results and demonstrated the feasibility of decoding novel visual categories from brain activity. However, methods that directly map EEG features to the CLIP embedding space may introduce mapping bias and cause semantic inconsistency among features, thereby degrading alignment and impairing decoding performance. To further explore the semantic consistency between visual and neural signals. In this work, we construct a joint semantic space and propose a Visual-EEG Semantic Decouple Framework that explicitly extracts the semantic-related features of these two modalities to facilitate optimal alignment. Specifically, a cross-modal information decoupling module is introduced to guide the extraction of semantic-related information from modalities. Then, by quantifying the mutual information between visual image and EEG features, we observe a strong positive correlation between the decoding performance and the magnitude of mutual information. Furthermore, inspired by the mechanisms of visual object understanding from neuroscience, we propose an intra-class geometric consistency approach during the alignment process. This strategy maps visual samples within the same class to consistent neural patterns, which further enhances the robustness and the performance of EEG visual decoding. Experiments on a large Image-EEG dataset show that our method achieves state-of-the-art results in zero-shot neural decoding tasks.