Brain3D: EEG-to-3D Decoding of Visual Representations via Multimodal Reasoning

📄 arXiv: 2604.08068v1 📥 PDF

作者: Emanuele Balloni, Emanuele Frontoni, Chiara Matti, Marina Paolanti, Roberto Pierdicca, Emiliano Santarnecchi

分类: cs.CV

发布日期: 2026-04-09

备注: 17 pages, 2 figures


💡 一句话要点

Brain3D:基于多模态推理的脑电信号到3D视觉表征解码

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑电信号 3D重建 多模态学习 脑机接口 视觉解码

📋 核心要点

  1. 现有脑电信号解码视觉信息的研究主要集中于2D图像重建,缺乏对3D表征的探索,限制了几何理解和应用范围。
  2. Brain3D通过多模态架构,将脑电信号解码为2D图像,再利用大型语言模型和扩散模型逐步生成3D网格,避免了直接的脑电信号到3D映射。
  3. 实验结果表明,该方法在脑电信号解码准确率和CLIPScore上表现出色,证明了多模态脑电驱动3D重建的可行性。

📝 摘要(中文)

本文提出Brain3D,一种基于脑电信号(EEG)到图像解码的多模态架构,用于脑电信号到3D重建。该方法利用几何感知的生成推理,逐步将神经表征转换为3D领域。首先,从脑电信号生成视觉图像;然后,利用多模态大型语言模型提取结构化的、具有3D感知的描述,指导基于扩散的生成阶段;最后,通过单图像到3D模型将输出转换为连贯的3D网格。通过将问题分解为结构化阶段,该方法避免了直接的脑电信号到3D映射,实现了可扩展的脑驱动3D生成。实验结果表明,该架构表现出色,实现了高达85.4%的10路Top-1脑电信号解码准确率和0.648的CLIPScore,验证了多模态脑电驱动3D重建的可行性。

🔬 方法详解

问题定义:现有基于脑电信号的视觉信息解码方法主要集中在2D图像重建,缺乏对3D表征的有效建模和重建能力。直接从脑电信号到3D模型的映射非常困难,因为脑电信号的复杂性和高维性,以及3D数据结构的复杂性。

核心思路:Brain3D的核心思路是将脑电信号到3D重建问题分解为多个可控的子问题,利用现有的成熟技术逐步实现。通过引入中间的2D图像表征和多模态语言模型,将复杂的直接映射问题转化为更易于处理的序列化生成过程。

技术框架:Brain3D的整体架构包含以下几个主要阶段:1) EEG-to-Image解码器:将脑电信号解码为2D图像。2) 多模态大型语言模型:提取2D图像的3D感知描述。3) 扩散模型:基于语言描述生成3D表征。4) 单图像到3D模型:将3D表征转换为3D网格。

关键创新:Brain3D的关键创新在于其多模态的分解式架构,避免了直接从脑电信号到3D模型的复杂映射。通过引入中间的2D图像和语言描述,利用多模态大型语言模型的强大推理能力,实现了更可控和可扩展的脑驱动3D生成。

关键设计:EEG-to-Image解码器可以使用现有的脑电信号解码模型,例如卷积神经网络或Transformer。多模态大型语言模型可以使用预训练的CLIP模型或类似的模型。扩散模型可以使用Stable Diffusion或类似的模型。单图像到3D模型可以使用Zero123或类似的模型。损失函数方面,可以使用CLIPScore等指标来评估生成图像和3D模型的语义一致性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Brain3D在实验中取得了显著的成果,实现了高达85.4%的10路Top-1脑电信号解码准确率,表明该方法能够有效地从脑电信号中提取视觉信息。此外,该方法还获得了0.648的CLIPScore,表明生成的3D模型与原始视觉刺激在语义上具有高度的一致性。这些结果验证了多模态脑电驱动3D重建的可行性。

🎯 应用场景

Brain3D技术在神经科学、人机交互、虚拟现实等领域具有广泛的应用前景。例如,可以用于研究大脑如何表征3D视觉信息,开发基于脑电信号控制的3D建模系统,或者为残疾人士提供更自然的虚拟现实体验。该技术还有助于开发新型的脑机接口设备,实现更高级的人机交互。

📄 摘要(原文)

Decoding visual information from electroencephalography (EEG) has recently achieved promising results, primarily focusing on reconstructing two-dimensional (2D) images from brain activity. However, the reconstruction of three-dimensional (3D) representations remains largely unexplored. This limits the geometric understanding and reduces the applicability of neural decoding in different contexts. To address this gap, we propose Brain3D, a multimodal architecture for EEG-to-3D reconstruction based on EEG-to-image decoding. It progressively transforms neural representations into the 3D domain using geometry-aware generative reasoning. Our pipeline first produces visually grounded images from EEG signals, then employs a multimodal large language model to extract structured 3D-aware descriptions, which guide a diffusion-based generation stage whose outputs are finally converted into coherent 3D meshes via a single-image-to-3D model. By decomposing the problem into structured stages, the proposed approach avoids direct EEG-to-3D mappings and enables scalable brain-driven 3D generation. We conduct a comprehensive evaluation comparing the reconstructed 3D outputs against the original visual stimuli, assessing both semantic alignment and geometric fidelity. Experimental results demonstrate strong performance of the proposed architecture, achieving up to 85.4% 10-way Top-1 EEG decoding accuracy and 0.648 CLIPScore, supporting the feasibility of multimodal EEG-driven 3D reconstruction.