ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection

📄 arXiv: 2604.26218v1 📥 PDF

作者: Ganxi Xu, Zhao-Rong Lai, Yuting Tang, Yonghao Song, Shuyan Zhou, Guoxu Zhou, Boyu Wang, Jian Zhu, Jinyi Long

分类: cs.CV

发布日期: 2026-04-29


💡 一句话要点

ViBE:通过时空VAE和分布对齐投影实现视觉到M/EEG脑编码

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 脑编码 脑磁图 脑电图 变分自编码器 跨模态对齐 视觉刺激 神经反应

📋 核心要点

  1. 现有脑编码模型在视觉刺激和神经反应的跨模态对齐方面存在挑战,难以准确重建神经反应。
  2. ViBE框架通过时空卷积VAE(TSC-VAE)捕获M/EEG信号的时空特征,并使用Q-Former进行跨模态对齐。
  3. 实验表明,ViBE在THINGS-EEG2和THINGS-MEG数据集上能有效生成高质量的M/EEG信号。

📝 摘要(中文)

脑编码模型不仅用于解码视觉刺激如何转化为神经反应,而且代表了为严重视力障碍患者恢复视力的视觉假体的关键一步。脑编码涉及两个基本步骤:实现神经反应的忠实重建以及建立视觉刺激和神经反应之间的跨模态对齐。为此,我们提出ViBE,一种新颖的脑编码框架,用于从视觉刺激生成脑磁图(MEG)和脑电图(EEG)信号。具体来说,我们首先设计一个时空卷积变分自编码器(TSC-VAE),它捕获M/EEG信号的时空特征,以实现有效的神经反应重建。为了弥合视觉特征和神经表征之间的模态差距,我们采用Q-Former将CLIP图像嵌入映射到TSC-VAE潜在空间,从而产生神经代理嵌入。为了实现全面的跨模态对齐,我们将用于逐点特征匹配的均方误差(MSE)损失与用于神经代理嵌入和TSC-VAE潜在嵌入之间概率分布对齐的切片Wasserstein距离(SWD)相结合。我们在THINGS-EEG2和THINGS-MEG数据集上进行了广泛的实验,证明了我们的方法在从视觉刺激生成高质量M/EEG信号方面的有效性。

🔬 方法详解

问题定义:论文旨在解决从视觉刺激生成高质量脑磁图(MEG)和脑电图(EEG)信号的脑编码问题。现有方法在实现神经反应的忠实重建以及视觉刺激和神经反应之间的跨模态对齐方面存在不足,难以充分利用M/EEG信号的时空特性,并且跨模态特征对齐不够精确。

核心思路:论文的核心思路是利用时空卷积变分自编码器(TSC-VAE)学习M/EEG信号的时空表征,并通过Q-Former将视觉特征映射到TSC-VAE的潜在空间,从而实现跨模态对齐。通过结合均方误差(MSE)损失和切片Wasserstein距离(SWD),实现更全面的跨模态对齐,提高神经反应重建的质量。

技术框架:ViBE框架主要包含以下几个模块:1) 时空卷积变分自编码器(TSC-VAE):用于学习M/EEG信号的时空表征。2) Q-Former:用于将CLIP图像嵌入映射到TSC-VAE的潜在空间,生成神经代理嵌入。3) 损失函数:包括MSE损失和SWD,用于实现跨模态对齐。整体流程是:首先,视觉刺激通过CLIP模型提取视觉特征;然后,Q-Former将视觉特征映射到TSC-VAE的潜在空间;最后,通过优化损失函数,实现视觉特征和M/EEG信号的对齐。

关键创新:论文的关键创新在于:1) 提出了TSC-VAE,能够有效捕获M/EEG信号的时空特征。2) 结合Q-Former和分布对齐方法(SWD),实现了更精确的跨模态对齐。与现有方法相比,ViBE能够更好地利用M/EEG信号的时空信息,并实现更准确的跨模态特征对齐。

关键设计:TSC-VAE采用时空卷积结构,能够同时提取时间和空间上的特征。Q-Former使用Transformer结构,能够学习视觉特征和M/EEG信号之间的复杂关系。损失函数方面,MSE损失用于逐点特征匹配,SWD用于概率分布对齐。具体参数设置未知,但论文强调了时空卷积核大小、Q-Former的层数和SWD的切片数量等关键参数的选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在THINGS-EEG2和THINGS-MEG数据集上进行了实验,结果表明ViBE能够有效生成高质量的M/EEG信号。具体的性能数据和对比基线未知,但论文强调ViBE在神经反应重建和跨模态对齐方面优于现有方法,能够更好地捕获M/EEG信号的时空特征。

🎯 应用场景

该研究成果可应用于视觉假体领域,帮助视力障碍患者恢复部分视觉功能。通过将视觉刺激转化为神经信号,可以绕过受损的视觉通路,直接刺激大脑皮层,产生视觉感知。此外,该研究还可以用于理解大脑如何处理视觉信息,为认知神经科学研究提供新的工具和方法。

📄 摘要(原文)

Brain encoding models not only serve to decipher how visual stimuli are transformed into neural responses, but also represent a critical step toward visual prostheses that restore vision for patients with severe vision disorders. Brain encoding involves two fundamental steps: achieving faithful reconstruction of neural responses and establishing cross-modal alignment between visual stimuli and neural responses. To this end, we propose ViBE, a novel brain encoding framework for generating magnetoencephalography (MEG) and electroencephalography (EEG) signals from visual stimuli. Specifically, we first design a spatio-temporal convolutional variational autoencoder (TSC-VAE) that captures the spatio-temporal characteristics of M/EEG signals for effective neural response reconstruction. To bridge the modality gap between visual features and neural representations, we employ Q-Former to map CLIP image embeddings to the TSC-VAE latent space, producing neural proxy embeddings. For comprehensive cross-modal alignment, we combine mean squared error (MSE) loss for point-wise feature matching with sliced Wasserstein distance (SWD) for probability distribution alignment between the neural proxy embeddings and TSC-VAE latent embeddings. We conduct extensive experiments on the THINGS-EEG2 and THINGS-MEG datasets, demonstrating the effectiveness of our approach in generating high-quality M/EEG signals from visual stimuli.