Multi-Level Bidirectional Biomimetic Learning for EEG-Based Visual Decoding
作者: Jingtao Liu, Peiliang Gong, Chuhang Zheng, Yiheng Liu, Qi Zhu
分类: cs.CV, cs.AI
发布日期: 2026-05-06
备注: 20 pages, 13 figures, 15 tables
💡 一句话要点
提出MB2L框架,通过多层双向生物模仿学习提升脑电图到图像的视觉解码性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 脑电图 视觉解码 生物模仿学习 对比学习 跨模态对齐
📋 核心要点
- 脑电图视觉解码面临有限数据和视觉感知差异的挑战,阻碍了跨模态对齐。
- MB2L框架通过引入生理归纳偏置,自适应模糊视觉输入,并提取多层生物模仿视觉特征来解决上述问题。
- 实验结果表明,MB2L在零样本脑电图到图像检索任务中显著优于现有方法,具有良好的泛化性。
📝 摘要(中文)
基于脑电图的视觉神经解码旨在将神经反应与视觉刺激对齐,用于图像检索等任务。然而,有限的配对数据以及高保真数字图像与生物视觉感知之间的根本不匹配(受到视网膜拓扑映射和个体神经解剖结构扭曲)严重阻碍了跨模态对齐。为了解决这个问题,我们提出了MB2L,一个多层双向生物模仿学习框架,它将结构化的生理归纳偏置融入到表征学习中。具体来说,我们提出了具有视觉先验的自适应模糊来减轻感知-结构不匹配,通过根据视网膜拓扑先验重新加权视觉输入。我们进一步提出了生物模仿视觉特征提取,以学习与分层皮层处理一致的多层视觉表征,从而增强了主体不变的编码。这些模块通过多层双向对比学习进行联合优化,该学习通过双向对比目标在共享语义空间中对齐脑电图和视觉特征。实验表明,MB2L在零样本脑电图到图像检索中实现了80.5%的Top-1和97.6%的Top-5准确率,显著优于现有方法,并展示了跨主体和实验设置的强大泛化能力。
🔬 方法详解
问题定义:论文旨在解决基于脑电图(EEG)的视觉解码问题,即如何将神经反应与视觉刺激对齐,从而实现例如图像检索等任务。现有方法的主要痛点在于:1) 配对的脑电图和视觉数据有限;2) 高保真数字图像与生物视觉感知之间存在根本的不匹配,生物视觉感知受到视网膜拓扑映射和个体神经解剖结构的扭曲。这种不匹配严重阻碍了跨模态的有效对齐。
核心思路:论文的核心思路是通过引入生物模仿学习,将结构化的生理归纳偏置融入到表征学习中。具体来说,论文模拟了人类视觉系统的处理方式,包括视网膜拓扑映射和分层皮层处理,从而学习更符合生物视觉感知的表征。通过这种方式,可以减轻数字图像和脑电信号之间的差异,提高跨模态对齐的准确性。
技术框架:MB2L框架包含三个主要模块:1) 具有视觉先验的自适应模糊(Adaptive Blur with Visual Priors):用于减轻感知-结构不匹配,根据视网膜拓扑先验重新加权视觉输入。2) 生物模仿视觉特征提取(Biomimetic Visual Feature Extraction):用于学习与分层皮层处理一致的多层视觉表征,增强主体不变的编码。3) 多层双向对比学习(Multi-level Bidirectional Contrastive Learning):用于在共享语义空间中对齐脑电图和视觉特征,通过双向对比目标进行联合优化。
关键创新:论文的关键创新在于:1) 提出了具有视觉先验的自适应模糊,能够根据视网膜拓扑先验动态调整视觉输入,从而更好地模拟生物视觉感知。2) 提出了生物模仿视觉特征提取,通过模拟分层皮层处理,学习更具生物合理性的视觉表征。3) 提出了多层双向对比学习,通过双向对比目标,更有效地对齐脑电图和视觉特征。
关键设计:自适应模糊模块使用可学习的权重来调整视觉输入的模糊程度,权重由视网膜拓扑先验引导。生物模仿视觉特征提取模块采用多层卷积神经网络,模拟分层皮层处理。多层双向对比学习使用InfoNCE损失函数,分别从脑电图到视觉和视觉到脑电图两个方向进行对比学习。具体参数设置(如卷积核大小、层数、学习率等)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
MB2L框架在零样本脑电图到图像检索任务中取得了显著的性能提升,Top-1准确率达到80.5%,Top-5准确率达到97.6%,显著优于现有方法。实验结果表明,MB2L框架具有良好的跨主体和实验设置的泛化能力,证明了其有效性和鲁棒性。
🎯 应用场景
该研究成果可应用于脑机接口、神经反馈、医学诊断等领域。例如,可以通过脑电信号重建患者看到的图像,辅助视觉障碍人士。此外,该技术还可以用于研究人类视觉感知机制,为人工智能领域提供新的思路。
📄 摘要(原文)
EEG-based visual neural decoding aims to align neural responses with visual stimuli for tasks such as image retrieval. However, limited paired data and a fundamental mismatch between high-fidelity digital images and biological visual perception - distorted by retinotopic mapping and subject-specific neuroanatomy - severely impede cross-modal alignment. To address this, we propose MB2L, a Multi-Level Bidirectional Biomimetic Learning framework that incorporates structured physiological inductive biases into representation learning. Specifically, we propose Adaptive Blur with Visual Priors to mitigate perceptual-structural mismatch by reweighting visual inputs according to retinotopic priors. We further propose Biomimetic Visual Feature Extraction to learn multi-level visual representations consistent with hierarchical cortical processing, enhancing subject-invariant encoding. These modules are jointly optimized via Multi-level Bidirectional Contrastive Learning, which aligns EEG and visual features in a shared semantic space through bidirectional contrastive objectives. Experiments show MB2L achieves 80.5% Top-1 and 97.6% Top-5 accuracy on zero-shot EEG-to-image retrieval, significantly outperforming prior methods and demonstrating strong generalization across subjects and experimental settings.