Autoregressive Visual Decoding from EEG Signals
作者: Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye
分类: cs.LG, cs.AI
发布日期: 2026-02-26
期刊: The Fourteenth International Conference on Learning Representations, 2026
💡 一句话要点
提出AVDE:一种轻量高效的自回归模型,用于脑电信号到视觉信息的解码。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 脑电信号解码 自回归模型 脑机接口 对比学习 视觉信息重建
📋 核心要点
- 现有脑电信号解码视觉信息的方法依赖复杂的多阶段适应过程,难以保证一致性,且计算开销大,限制了实际应用。
- AVDE利用预训练脑电模型和对比学习对齐脑电与图像表示,并采用自回归生成框架,通过“下一尺度预测”策略生成图像。
- 实验结果表明,AVDE在图像检索和重建任务中优于现有方法,同时参数量仅为10%,且生成过程反映了人类视觉感知的层次结构。
📝 摘要(中文)
脑电图(EEG)信号因其经济性和高时间分辨率,已成为解码视觉信息的常用媒介。然而,当前方法在弥合脑电信号和图像数据之间的模态差距方面面临重大挑战。这些方法通常依赖于复杂的多阶段适应过程,难以保持一致性并容易累积误差。此外,大规模扩散模型带来的计算开销限制了它们在实际脑机接口(BCI)应用中的实用性。本文提出了AVDE,一个轻量高效的框架,用于从脑电信号中解码视觉信息。首先,我们利用预训练的脑电模型LaBraM,并通过对比学习对其进行微调,以对齐脑电和图像表示。其次,我们采用基于“下一尺度预测”策略的自回归生成框架:图像使用预训练的VQ-VAE编码成多尺度token maps,并训练一个transformer来自回归地预测更精细尺度的token,从脑电嵌入作为最粗糙的表示开始。这种设计实现了连贯的生成,同时保持了输入脑电信号和重建图像之间的直接连接。在两个数据集上的实验表明,AVDE在图像检索和重建任务中均优于先前的最先进方法,同时仅使用了10%的参数。此外,中间输出的可视化表明,AVDE的生成过程反映了人类视觉感知的层次结构。这些结果突出了自回归模型作为高效且可解释的工具在实际BCI应用中的潜力。
🔬 方法详解
问题定义:论文旨在解决脑电信号到视觉信息解码的问题。现有方法通常采用复杂的多阶段适应过程,导致一致性差、误差累积,并且计算成本高昂,难以应用于实际脑机接口系统中。
核心思路:论文的核心思路是利用自回归生成模型,从脑电信号的嵌入表示出发,逐步预测图像的多尺度token maps,实现由粗到精的图像重建。这种方法旨在建立脑电信号和图像之间的直接联系,并减少计算复杂度。
技术框架:AVDE框架包含以下主要模块:1) 预训练的脑电模型LaBraM,用于提取脑电信号的嵌入表示;2) 对比学习模块,用于对齐脑电和图像的表示空间;3) 预训练的VQ-VAE,用于将图像编码成多尺度token maps;4) 自回归Transformer,用于根据脑电嵌入和已生成的粗尺度token,预测更精细尺度的token。整个流程是从脑电信号到图像的多尺度自回归生成过程。
关键创新:论文的关键创新在于采用了“下一尺度预测”的自回归生成策略,将图像重建问题分解为一系列逐步细化的预测任务。这种方法避免了复杂的中间表示和多阶段训练,实现了高效且连贯的图像生成。此外,利用预训练的脑电模型和VQ-VAE,减少了对大规模训练数据的依赖。
关键设计:对比学习采用InfoNCE损失函数,用于最大化脑电和对应图像表示之间的一致性。自回归Transformer采用标准的Transformer结构,并使用交叉熵损失函数训练,以预测下一个尺度的token。VQ-VAE的码本大小和Transformer的层数等超参数需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
AVDE在两个数据集上的实验结果表明,其在图像检索和重建任务中均优于先前的最先进方法。具体而言,在保持或超过现有方法性能的同时,AVDE仅使用了约10%的参数量,显著降低了计算成本。此外,中间输出的可视化结果表明,AVDE的生成过程能够反映人类视觉感知的层次结构。
🎯 应用场景
该研究成果可应用于脑机接口领域,例如帮助无法进行正常沟通的患者表达视觉意图,或者用于视觉假肢的开发。此外,该技术还可以用于研究人类视觉感知机制,通过分析脑电信号和重建图像之间的关系,深入理解大脑的工作原理。
📄 摘要(原文)
Electroencephalogram (EEG) signals have become a popular medium for decoding visual information due to their cost-effectiveness and high temporal resolution. However, current approaches face significant challenges in bridging the modality gap between EEG and image data. These methods typically rely on complex adaptation processes involving multiple stages, making it hard to maintain consistency and manage compounding errors. Furthermore, the computational overhead imposed by large-scale diffusion models limit their practicality in real-world brain-computer interface (BCI) applications. In this work, we present AVDE, a lightweight and efficient framework for visual decoding from EEG signals. First, we leverage LaBraM, a pre-trained EEG model, and fine-tune it via contrastive learning to align EEG and image representations. Second, we adopt an autoregressive generative framework based on a "next-scale prediction" strategy: images are encoded into multi-scale token maps using a pre-trained VQ-VAE, and a transformer is trained to autoregressively predict finer-scale tokens starting from EEG embeddings as the coarsest representation. This design enables coherent generation while preserving a direct connection between the input EEG signals and the reconstructed images. Experiments on two datasets show that AVDE outperforms previous state-of-the-art methods in both image retrieval and reconstruction tasks, while using only 10% of the parameters. In addition, visualization of intermediate outputs shows that the generative process of AVDE reflects the hierarchical nature of human visual perception. These results highlight the potential of autoregressive models as efficient and interpretable tools for practical BCI applications.