Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning

📄 arXiv: 2406.16910v1 📥 PDF

作者: Chi-Sheng Chen, Chun-Shu Wei

分类: eess.SP, cs.AI, cs.HC, cs.LG, q-bio.NC

发布日期: 2024-06-05

备注: 19 pages, 14 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MUSE框架,通过脑电信号实现零样本图像识别,提升脑机接口性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑电信号 图像识别 对比学习 多模态学习 零样本学习

📋 核心要点

  1. 现有方法在利用脑电信号进行图像识别时,面临信噪比低和信号非平稳性的挑战。
  2. MUSE框架采用多模态对比学习,通过保持EEG信号和图像之间的相似性来进行预训练。
  3. 实验结果表明,MUSE框架在零样本图像分类任务中取得了显著的性能提升,超越了现有技术。

📝 摘要(中文)

本文提出了一种多模态相似性保持对比学习(MUSE)框架,用于解决基于非侵入式脑电图(EEG)信号解码图像这一难题。该问题旨在理解人类大脑在真实场景中处理视觉信息的方式。为了应对信噪比和非平稳性问题,MUSE框架被设计用于零样本EEG图像分类。论文开发了一系列专为EEG信号定制的多元时间序列编码器,并使用大规模视觉EEG数据集评估了正则化对比EEG-图像预训练的有效性。实验结果表明,该方法达到了最先进的性能,在200类零样本图像分类中,top-1准确率为19.3%,top-5准确率为48.8%。此外,通过模型解释可视化神经模式,揭示了人类大脑中的视觉处理动态。

🔬 方法详解

问题定义:论文旨在解决从非侵入式脑电图(EEG)信号中解码图像的问题,即通过分析脑电信号来识别被试者正在观看的图像。现有方法受限于EEG信号的低信噪比和非平稳性,导致解码精度较低,难以应用于实际场景。

核心思路:论文的核心思路是利用多模态对比学习,将EEG信号和图像嵌入到同一个特征空间中,并通过对比学习的方式,使相似的EEG信号和图像在特征空间中更接近,不相似的则更远离。这种方法能够有效地学习到EEG信号和图像之间的关联性,从而提高解码精度。

技术框架:MUSE框架包含以下主要模块:1) EEG编码器:用于将EEG信号转换为特征向量。论文设计了一系列专为EEG信号定制的多元时间序列编码器。2) 图像编码器:用于将图像转换为特征向量。可以使用预训练的图像模型,例如ResNet。3) 对比学习模块:用于将EEG信号和图像的特征向量进行对比学习,优化特征空间,使得相似的EEG信号和图像的特征向量更接近。

关键创新:论文的关键创新在于提出了多模态相似性保持对比学习(MUSE)框架,该框架能够有效地学习到EEG信号和图像之间的关联性,从而提高解码精度。此外,论文还设计了一系列专为EEG信号定制的多元时间序列编码器,能够更好地提取EEG信号的特征。

关键设计:在对比学习模块中,论文采用了InfoNCE损失函数,该损失函数能够有效地优化特征空间,使得相似的EEG信号和图像的特征向量更接近,不相似的则更远离。此外,论文还使用了正则化技术,以防止过拟合。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MUSE框架在200类零样本图像分类任务中取得了显著的性能提升,top-1准确率达到19.3%,top-5准确率达到48.8%。相较于现有方法,MUSE框架在准确率方面有显著提升,证明了其有效性。此外,论文还通过模型解释可视化神经模式,揭示了人类大脑中的视觉处理动态。

🎯 应用场景

该研究成果可应用于脑机接口(BCI)领域,例如辅助视觉障碍人士、实现意念控制等。通过解码脑电信号,可以帮助视觉障碍人士“看到”周围的世界,或者让使用者通过意念控制外部设备。此外,该研究还可以用于神经科学研究,帮助人们更好地理解大脑的视觉处理机制。

📄 摘要(原文)

Decoding images from non-invasive electroencephalographic (EEG) signals has been a grand challenge in understanding how the human brain process visual information in real-world scenarios. To cope with the issues of signal-to-noise ratio and nonstationarity, this paper introduces a MUltimodal Similarity-keeping contrastivE learning (MUSE) framework for zero-shot EEG-based image classification. We develop a series of multivariate time-series encoders tailored for EEG signals and assess the efficacy of regularized contrastive EEG-Image pretraining using an extensive visual EEG dataset. Our method achieves state-of-the-art performance, with a top-1 accuracy of 19.3% and a top-5 accuracy of 48.8% in 200-way zero-shot image classification. Furthermore, we visualize neural patterns via model interpretation, shedding light on the visual processing dynamics in the human brain. The code repository for this work is available at: https://github.com/ChiShengChen/MUSE_EEG.