Autoregressive Visual Decoding from EEG Signals

📄 arXiv: 2602.22555 📥 PDF

作者: Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye

分类: cs.LG, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出AVDE:一种轻量高效的脑电信号自回归视觉解码框架,用于脑机接口应用。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 脑电信号 视觉解码 自回归模型 脑机接口 对比学习

📋 核心要点

  1. 现有脑电信号视觉解码方法依赖复杂的多阶段适应过程,难以保持一致性,且计算开销大,限制了实际应用。
  2. AVDE框架利用对比学习对齐脑电和图像表示,并采用自回归生成模型,通过“下一尺度预测”策略重建图像。
  3. 实验表明,AVDE在图像检索和重建任务中优于现有方法,参数量仅为10%,且生成过程反映了人类视觉感知的层次性。

📝 摘要(中文)

脑电图(EEG)信号因其经济性和高时间分辨率,已成为解码视觉信息的常用媒介。然而,当前方法在弥合脑电信号和图像数据之间的模态差距方面面临重大挑战。这些方法通常依赖于复杂的多阶段适应过程,难以保持一致性并容易累积误差。此外,大规模扩散模型带来的计算开销限制了它们在实际脑机接口(BCI)应用中的实用性。本文提出AVDE,一个轻量高效的脑电信号视觉解码框架。首先,利用预训练的脑电模型LaBraM,并通过对比学习对其进行微调,以对齐脑电和图像表示。其次,采用基于“下一尺度预测”策略的自回归生成框架:使用预训练的VQ-VAE将图像编码成多尺度token maps,并训练一个transformer来自回归地预测更精细尺度的token,从脑电嵌入作为最粗糙的表示开始。这种设计实现了连贯的生成,同时保持了输入脑电信号和重建图像之间的直接连接。在两个数据集上的实验表明,AVDE在图像检索和重建任务中均优于先前的state-of-the-art方法,同时仅使用了10%的参数。此外,中间输出的可视化表明,AVDE的生成过程反映了人类视觉感知的层次性。这些结果突出了自回归模型作为高效且可解释的工具在实际BCI应用中的潜力。

🔬 方法详解

问题定义:论文旨在解决脑电信号到视觉信息解码的问题,现有方法存在模态差距大、多阶段适应过程复杂、计算开销高等痛点,限制了其在实际脑机接口(BCI)应用中的应用。

核心思路:论文的核心思路是利用预训练的脑电模型和自回归生成模型,通过对比学习对齐脑电和图像表示,并采用“下一尺度预测”策略,从粗到细地生成图像。这种方法旨在减少模态差距,降低计算复杂度,并提高生成图像的质量和一致性。

技术框架:AVDE框架主要包含两个阶段:1) 表示对齐:利用预训练的脑电模型LaBraM,并通过对比学习微调,将脑电信号和图像数据映射到共同的表示空间。2) 自回归生成:使用预训练的VQ-VAE将图像编码成多尺度token maps,然后训练一个Transformer模型,以脑电嵌入作为最粗糙的表示,自回归地预测更精细尺度的token,最终重建图像。

关键创新:AVDE的关键创新在于其轻量高效的自回归生成框架,该框架采用“下一尺度预测”策略,从粗到细地生成图像,避免了复杂的多阶段适应过程,降低了计算复杂度,并提高了生成图像的质量和一致性。与现有方法相比,AVDE能够以更少的参数实现更好的性能。

关键设计:AVDE的关键设计包括:1) 使用预训练的LaBraM模型作为脑电特征提取器;2) 采用对比学习损失函数来对齐脑电和图像表示;3) 使用VQ-VAE将图像编码成多尺度token maps;4) 设计Transformer模型,以自回归的方式预测更精细尺度的token;5) 通过实验调整Transformer模型的层数、隐藏层大小等超参数,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AVDE在两个数据集上均优于先前的state-of-the-art方法,在图像检索和重建任务中取得了显著提升。更重要的是,AVDE仅使用了现有方法10%的参数量,实现了更高的效率。此外,中间输出的可视化结果表明,AVDE的生成过程反映了人类视觉感知的层次性,验证了该方法的有效性和可解释性。

🎯 应用场景

该研究成果可应用于脑机接口(BCI)领域,例如辅助视觉障碍人士“看”到图像,或用于脑疾病诊断和治疗。通过解码脑电信号,可以实现对个体视觉体验的重建,从而为理解人类视觉感知机制提供新的视角。未来,该技术有望应用于虚拟现实、游戏等领域,实现更自然、更沉浸式的人机交互。

📄 摘要(原文)

Electroencephalogram (EEG) signals have become a popular medium for decoding visual information due to their cost-effectiveness and high temporal resolution. However, current approaches face significant challenges in bridging the modality gap between EEG and image data. These methods typically rely on complex adaptation processes involving multiple stages, making it hard to maintain consistency and manage compounding errors. Furthermore, the computational overhead imposed by large-scale diffusion models limit their practicality in real-world brain-computer interface (BCI) applications. In this work, we present AVDE, a lightweight and efficient framework for visual decoding from EEG signals. First, we leverage LaBraM, a pre-trained EEG model, and fine-tune it via contrastive learning to align EEG and image representations. Second, we adopt an autoregressive generative framework based on a "next-scale prediction" strategy: images are encoded into multi-scale token maps using a pre-trained VQ-VAE, and a transformer is trained to autoregressively predict finer-scale tokens starting from EEG embeddings as the coarsest representation. This design enables coherent generation while preserving a direct connection between the input EEG signals and the reconstructed images. Experiments on two datasets show that AVDE outperforms previous state-of-the-art methods in both image retrieval and reconstruction tasks, while using only 10% of the parameters. In addition, visualization of intermediate outputs shows that the generative process of AVDE reflects the hierarchical nature of human visual perception. These results highlight the potential of autoregressive models as efficient and interpretable tools for practical BCI applications.