Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs
作者: Junyu Pan, Yansen Wang, Enze Zhang, Baoliang Lu, Weilong Zheng, Dongsheng Li
分类: cs.AI
发布日期: 2026-05-18
💡 一句话要点
提出生成式视觉 grounding (GVG) 框架,提升 MLLM 对脑电信号的理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电信号理解 多模态学习 大型语言模型 视觉 grounding 生成式模型
📋 核心要点
- 现有方法主要依赖脑电信号与抽象文本的对齐,忽略了脑活动中丰富的感知信息,导致信息损失。
- GVG 框架通过脑电到图像的生成模型,将脑电信号转化为视觉代理,为 MLLM 提供更丰富的视觉上下文。
- 实验结果表明,GVG 框架在脑电理解和视觉生成方面均取得了显著提升,验证了视觉代理 grounding 的有效性。
📝 摘要(中文)
本文提出了一种名为生成式视觉 grounding (GVG) 的框架,旨在提升多模态大型语言模型 (MLLM) 对脑电信号 (EEG) 的理解能力。由于视觉诱发电位脑电数据集的稀缺,现有方法主要将神经信号与抽象文本对齐,这种有损的转换可能会丢失脑活动中编码的细粒度感知信息。GVG 框架使用脑电到图像的生成模型作为视觉翻译器,为非视觉脑电信号生成特定实例的代理图像,从而提供结构化的视觉上下文,使 MLLM 能够利用其视觉先验进行临床状态的解释。该方法在 GVG-X-Omni 和 GVG-Janus 两个 MLLM 主干网络上进行了验证。实验结果表明,仅图像对齐就具有竞争力:轻量级的 GVG-X-Omni 在冻结的 7B 参数主干网络上仅调整 1.7 亿个参数,即可与 17 亿参数的文本对齐基线相匹配。GVG-Janus 进一步扩展为三模态图像+文本对齐,其中文本提供类别语义锚点,视觉代理丰富了神经表征的感知细节。实验表明,在脑电理解和视觉生成方面均取得了持续的提升,表明视觉代理 grounding 是文本对齐的有效补充。
🔬 方法详解
问题定义:现有方法在利用多模态大型语言模型(MLLM)理解脑电信号时,主要依赖于将脑电信号与抽象文本进行对齐。这种方法忽略了脑电信号中蕴含的细粒度感知信息,导致信息损失,限制了 MLLM 对脑电信号的深入理解。现有视觉诱发电位脑电数据集的稀缺性加剧了这一问题。
核心思路:GVG 框架的核心思路是将脑电信号转化为视觉信息,为 MLLM 提供更丰富的视觉上下文。通过使用脑电到图像的生成模型,将非视觉脑电信号转化为特定实例的代理图像,从而使 MLLM 能够利用其视觉先验知识进行临床状态的解释。这种方法避免了直接将脑电信号与抽象文本对齐,保留了更多的感知信息。
技术框架:GVG 框架包含以下主要模块:1) 脑电到图像的生成模型(EEG-to-image generative model),用于将脑电信号转化为视觉代理图像。2) MLLM 主干网络,例如 GVG-X-Omni 和 GVG-Janus,用于对视觉代理图像进行理解和分析。3) 对齐模块,用于将视觉代理图像与 MLLM 的视觉先验知识进行对齐。对于 GVG-Janus,还包含文本模态,实现三模态对齐。整体流程是:输入脑电信号,通过生成模型生成视觉代理图像,然后将图像输入 MLLM 进行分析,最终输出临床状态的解释。
关键创新:GVG 框架的关键创新在于引入了视觉代理 grounding 的概念,将非视觉的脑电信号转化为视觉信息,为 MLLM 提供更丰富的上下文信息。与现有方法直接将脑电信号与抽象文本对齐相比,GVG 框架能够保留更多的感知信息,从而提升 MLLM 对脑电信号的理解能力。此外,GVG-Janus 进一步融合了文本信息,实现了三模态对齐,进一步提升了性能。
关键设计:GVG 框架的关键设计包括:1) 脑电到图像生成模型的选择和训练,需要选择合适的生成模型,并使用大量的脑电和图像数据进行训练。2) MLLM 主干网络的选择和调整,需要选择具有强大的视觉理解能力的 MLLM,并根据具体任务进行调整。3) 对齐模块的设计,需要设计合适的损失函数,使视觉代理图像与 MLLM 的视觉先验知识进行有效对齐。对于 GVG-Janus,还需要设计合适的融合策略,将视觉和文本信息进行有效融合。论文中使用了冻结的 7B 参数主干网络,并仅调整 1.7 亿个参数,实现了高效的参数利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,轻量级的 GVG-X-Omni 在冻结的 7B 参数主干网络上仅调整 1.7 亿个参数,即可与 17 亿参数的文本对齐基线相匹配,表明视觉代理 grounding 的有效性。GVG-Janus 进一步扩展为三模态图像+文本对齐,在脑电理解和视觉生成方面均取得了持续的提升,验证了视觉代理 grounding 作为文本对齐有效补充的价值。
🎯 应用场景
该研究成果可应用于脑疾病诊断、脑机接口、神经反馈等领域。通过提升 MLLM 对脑电信号的理解能力,可以更准确地诊断脑部疾病,开发更智能的脑机接口系统,并为神经反馈治疗提供更有效的指导。未来,该技术有望在临床医学和神经科学研究中发挥重要作用。
📄 摘要(原文)
Leveraging the universal representations of pre-trained LLMs and MLLMs offers a promising path toward brain foundation models. However, visually-evoked EEG datasets remain scarce, leading existing methods to align neural signals mainly with abstract text, a lossy translation that may discard fine-grained perceptual information encoded in brain activity. We propose Generative Visual Grounding (GVG), a framework that visualizes the invisible by using an EEG-to-image generative model as a visual translator. Instead of forcing EEG into text alone, GVG hallucinates instance-specific proxy images for non-visual EEG, providing structured visual contexts that allow MLLMs to exploit their visual priors for clinical-state interpretation. We validate this idea on two MLLM backbones, GVG-X-Omni and GVG-Janus. Image-only alignment is already competitive: the lightweight GVG-X-Omni matches 1.7B-parameter text-aligned baselines while tuning only 170M parameters on a frozen 7B backbone. We further extend GVG-Janus with trimodal Image+Text alignment, where text supplies categorical semantic anchors and visual proxies enrich neural representations with perceptual details. Experiments show consistent gains in EEG understanding and visual generation, suggesting visual proxy grounding as an effective complement to textual alignment.