Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models

📄 arXiv: 2411.07121v2 📥 PDF

作者: Yanchen Wang, Adam Turnbull, Tiange Xiang, Yunlong Xu, Sa Zhou, Adnan Masoud, Shekoofeh Azizi, Feng Vankee Lin, Ehsan Adeli

分类: cs.CV

发布日期: 2024-11-11 (更新: 2024-11-17)


💡 一句话要点

利用fMRI基础模型进行全脑分析,解码视觉体验并映射语义信息

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经解码 功能磁共振成像 全脑分析 对比学习 图像生成模型 语义映射 脑机接口

📋 核心要点

  1. 现有神经解码方法主要集中在视觉皮层,忽略了全脑活动在视觉体验中的作用,限制了对复杂视觉过程的理解。
  2. 该论文提出利用大规模fMRI编码器和图像生成模型,通过对比学习进行微调,实现全脑视觉体验解码。
  3. 实验表明,该方法在预测语义准确率上优于现有方法43%,并验证了模型在零样本想象解码中的有效性。

📝 摘要(中文)

神经解码是认知科学中的一个主要目标,旨在理解大脑活动与不同刺激之间的对应关系。过去三十年,功能磁共振成像(fMRI)和机器学习的进步极大地提高了我们对视觉刺激与大脑活动(尤其是在视觉皮层中)之间映射的能力。同时,研究也扩展到解码更复杂的过程,如语言和记忆,并利用技术来处理更大的变异性并提高信号准确性。本文提出,“观看”不仅仅是将视觉刺激映射到视觉皮层;它涉及整个大脑,因为不同的情绪和认知状态可能源于观察不同的场景。因此,我们开发了算法,通过结合个体暴露于视觉刺激时的全脑激活图来增强我们对视觉过程的理解。我们利用大规模fMRI编码器和在大型公共数据集上预训练的图像生成模型,并通过图像-fMRI对比学习进行微调。我们的模型因此可以解码整个大脑皮层的视觉体验,超越了视觉皮层的传统范围。我们首先将我们的方法与最先进的视觉处理解码方法进行比较,结果表明预测语义准确率提高了43%。网络消融分析表明,除了视觉皮层之外,默认模式网络对解码刺激的贡献最大,这与该网络在意义构建和语义处理中的作用相符。此外,我们在额外的验证数据集上实现了零样本想象解码,对于重建图像和真实文本刺激的映射,实现了0.0206的p值,这证实了该模型能够捕获各种场景中的语义意义。

🔬 方法详解

问题定义:现有神经解码方法主要关注视觉皮层,无法充分解释视觉体验中涉及的复杂认知过程和情感状态。传统方法难以捕捉全脑范围内的神经活动模式,限制了对视觉信息深层语义的理解。

核心思路:该论文的核心思路是利用全脑fMRI数据,结合预训练的图像生成模型和对比学习,构建一个能够解码视觉体验并映射语义信息的模型。通过将视觉刺激与全脑神经活动关联起来,模型能够捕捉更全面的视觉信息处理过程。

技术框架:该方法的技术框架主要包括以下几个模块:1) 大规模fMRI编码器:用于将fMRI数据编码为神经活动特征向量。2) 图像生成模型:使用预训练的图像生成模型(如Stable Diffusion)作为先验知识。3) 图像-fMRI对比学习:通过对比学习,将图像特征和神经活动特征映射到同一语义空间。4) 解码器:用于将神经活动特征解码为图像或语义信息。

关键创新:该论文的关键创新在于:1) 利用全脑fMRI数据进行视觉体验解码,超越了传统视觉皮层的限制。2) 结合预训练的图像生成模型和对比学习,提高了模型的语义理解能力和泛化能力。3) 实现了零样本想象解码,验证了模型在不同场景下的语义映射能力。

关键设计:在对比学习中,使用了InfoNCE损失函数来最大化图像特征和神经活动特征之间的互信息。网络结构方面,使用了Transformer架构来捕捉神经活动之间的长程依赖关系。在图像生成模型微调过程中,使用了低秩适应(LoRA)方法,以减少计算成本和防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究最重要的实验结果是:与现有最先进的视觉处理解码方法相比,该方法在预测语义准确率上提高了43%。此外,零样本想象解码实验实现了0.0206的p值,表明该模型能够有效地将重建图像与真实文本刺激进行映射,验证了模型在不同场景下的语义理解能力。

🎯 应用场景

该研究成果可应用于脑机接口、认知神经科学研究、精神疾病诊断等领域。例如,可以用于开发更先进的视觉假肢,帮助盲人恢复部分视觉功能;也可以用于研究不同认知状态下的大脑活动模式,为精神疾病的早期诊断和治疗提供新的思路。此外,该技术还可以用于评估广告效果、电影吸引力等,具有广泛的应用前景。

📄 摘要(原文)

Neural decoding, the process of understanding how brain activity corresponds to different stimuli, has been a primary objective in cognitive sciences. Over the past three decades, advancements in functional Magnetic Resonance Imaging and machine learning have greatly improved our ability to map visual stimuli to brain activity, especially in the visual cortex. Concurrently, research has expanded into decoding more complex processes like language and memory across the whole brain, utilizing techniques to handle greater variability and improve signal accuracy. We argue that "seeing" involves more than just mapping visual stimuli onto the visual cortex; it engages the entire brain, as various emotions and cognitive states can emerge from observing different scenes. In this paper, we develop algorithms to enhance our understanding of visual processes by incorporating whole-brain activation maps while individuals are exposed to visual stimuli. We utilize large-scale fMRI encoders and Image generative models pre-trained on large public datasets, which are then fine-tuned through Image-fMRI contrastive learning. Our models hence can decode visual experience across the entire cerebral cortex, surpassing the traditional confines of the visual cortex. We first compare our method with state-of-the-art approaches to decoding visual processing and show improved predictive semantic accuracy by 43%. A network ablation analysis suggests that beyond the visual cortex, the default mode network contributes most to decoding stimuli, in line with the proposed role of this network in sense-making and semantic processing. Additionally, we implemented zero-shot imagination decoding on an extra validation dataset, achieving a p-value of 0.0206 for mapping the reconstructed images and ground-truth text stimuli, which substantiates the model's capability to capture semantic meanings across various scenarios.