EEG2Vision: A Multimodal EEG-Based Framework for 2D Visual Reconstruction in Cognitive Neuroscience

作者: Emanuele Balloni, Emanuele Frontoni, Chiara Matti, Marina Paolanti, Roberto Pierdicca, Emiliano Santarnecchi

分类: cs.CV

发布日期: 2026-04-09

备注: 17 pages, 5 figures

💡 一句话要点

提出EEG2Vision框架，利用低密度脑电信号实现高质量视觉重建，并提升脑机接口应用潜力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 脑电信号 视觉重建 扩散模型 多模态学习 脑机接口

📋 核心要点

现有脑电信号重建视觉刺激的方法在低空间分辨率和高噪声下表现不佳，尤其是在低密度电极配置下。
EEG2Vision框架通过脑电条件下的扩散重建和提示引导的后重建增强，提升视觉重建质量和感知连贯性。
实验表明，该框架在不同脑电通道分辨率下均能有效重建视觉信息，并在低通道配置下显著提升感知指标。

📝 摘要（中文）

本研究提出了一种名为EEG2Vision的模块化、端到端脑电（EEG）到图像框架，旨在解决从非侵入式脑电信号重建视觉刺激的挑战，尤其是在现实的低密度电极配置下。该框架系统地评估了不同脑电通道分辨率（128、64、32和24通道）下的重建性能，并通过提示引导的后重建增强机制来提高视觉质量。从脑电条件下的扩散重建开始，增强阶段使用多模态大型语言模型提取语义描述，并利用图像到图像的扩散来细化几何结构和感知连贯性，同时保留脑电信号的基础结构。实验表明，语义解码精度随着通道数量的减少而显著降低（例如，50-way Top-1 Acc从89%降至38%），而重建质量略有下降（例如，FID从76.77降至80.51）。所提出的增强方法始终如一地提高了所有配置的感知指标，在低通道设置中实现了高达9.71%的IS增益。用户研究证实了增强重建在感知上的明显偏好。该方法显著提高了使用低分辨率脑电设备进行实时脑-图应用的可行性，有可能在实验室环境之外解锁此类应用。

🔬 方法详解

问题定义：论文旨在解决从低密度脑电信号中高质量重建视觉图像的问题。现有方法在低通道数脑电信号下，重建图像质量差，语义信息损失严重，难以满足实际应用需求。

核心思路：论文的核心思路是结合脑电信号的结构信息和大型语言模型的语义理解能力，通过扩散模型进行图像重建，并利用提示引导的后处理增强图像的感知质量。这种方法旨在弥补低密度脑电信号带来的信息损失，提升重建图像的可用性。

技术框架：EEG2Vision框架包含两个主要阶段：1) 脑电条件下的扩散重建：利用脑电信号作为条件，通过扩散模型生成初始重建图像。2) 提示引导的后重建增强：使用多模态大型语言模型提取初始图像的语义描述，并利用图像到图像的扩散模型，根据语义提示细化图像的几何结构和感知连贯性。

关键创新：该框架的关键创新在于将多模态大型语言模型引入脑电信号的视觉重建过程，利用其强大的语义理解能力来指导图像增强，从而在低密度脑电信号下也能获得高质量的重建图像。与传统方法相比，该方法能够更好地保留脑电信号的结构信息，并提升图像的感知质量。

关键设计：在脑电条件下的扩散重建阶段，使用U-Net结构作为扩散模型的主干网络，并使用脑电信号作为条件输入。在提示引导的后重建增强阶段，使用CLIP模型提取图像的语义描述，并使用Stable Diffusion模型进行图像细化。损失函数方面，主要关注重建图像与原始图像之间的感知差异和语义一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EEG2Vision框架在不同脑电通道分辨率下均能有效重建视觉信息。在低通道配置下（如24通道），通过提示引导的后重建增强，感知指标IS提升高达9.71%。用户研究也表明，增强后的重建图像在感知上更受偏好。即使在通道数大幅减少的情况下，该框架仍能保持较好的重建质量，证明了其在低密度脑电信号下的有效性。

🎯 应用场景

该研究成果可应用于多种领域，如辅助诊断、神经反馈训练、脑机接口游戏等。尤其是在实验室环境之外，利用低成本、低分辨率的脑电设备进行实时视觉重建，具有巨大的应用潜力。未来，该技术有望帮助人们更好地理解大脑的视觉处理机制，并开发出更智能、更便捷的脑机接口设备。

📄 摘要（原文）

Reconstructing visual stimuli from non-invasive electroencephalography (EEG) remains challenging due to its low spatial resolution and high noise, particularly under realistic low-density electrode configurations. To address this, we present EEG2Vision, a modular, end-to-end EEG-to-image framework that systematically evaluates reconstruction performance across different EEG resolutions (128, 64, 32, and 24 channels) and enhances visual quality through a prompt-guided post-reconstruction boosting mechanism. Starting from EEG-conditioned diffusion reconstruction, the boosting stage uses a multimodal large language model to extract semantic descriptions and leverages image-to-image diffusion to refine geometry and perceptual coherence while preserving EEG-grounded structure. Our experiments show that semantic decoding accuracy degrades significantly with channel reduction (e.g., 50-way Top-1 Acc from 89% to 38%), while reconstruction quality slight decreases (e.g., FID from 76.77 to 80.51). The proposed boosting consistently improves perceptual metrics across all configurations, achieving up to 9.71% IS gains in low-channel settings. A user study confirms the clear perceptual preference for boosted reconstructions. The proposed approach significantly boosts the feasibility of real-time brain-2-image applications using low-resolution EEG devices, potentially unlocking this type of applications outside laboratory settings.

EEG2Vision: A Multimodal EEG-Based Framework for 2D Visual Reconstruction in Cognitive Neuroscience

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理