Toward Generalizing Visual Brain Decoding to Unseen Subjects

作者: Xiangtao Kong, Kexin Huang, Ping Li, Lei Zhang

分类: cs.CV, cs.AI

发布日期: 2024-10-18 (更新: 2024-10-21)

🔗 代码/项目: GITHUB

💡 一句话要点

提出一种通用的视觉脑解码框架，提升模型在未见个体上的泛化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉脑解码 fMRI 泛化能力 未见个体 深度学习

📋 核心要点

现有脑解码方法缺乏对未见个体的泛化能力，限制了其应用范围和潜力。
提出一种统一处理所有受试者的学习范式，避免为个体定制网络结构，从而提升泛化性。
实验表明，该方法在多种网络架构上均表现出良好的泛化能力，且性能受个体相似性影响。

📝 摘要（中文）

视觉脑解码旨在从人类大脑活动中解码视觉信息。尽管取得了显著进展，但当前脑解码研究的一个关键限制是缺乏对未见个体的泛化能力。以往工作通常侧重于基于不同个体表现出不同大脑活动的观察，来解码个体的大脑活动，但脑解码是否可以推广到未见个体仍不清楚。本研究旨在回答这个问题。我们首先整合了一个图像-fMRI数据集，包含来自人类连接组计划（HCP）电影观看任务的177名受试者的刺激图像和fMRI响应对。该数据集允许我们研究随着参与者数量的增加，脑解码的性能。然后，我们提出了一种学习范式，该范式对所有受试者应用统一的处理，而不是像以前的方法那样为个体采用不同的网络头或分词器，这可以容纳大量的受试者，以探索不同受试者之间的泛化能力。进行了一系列实验，我们有以下发现。首先，随着训练对象的增加，网络表现出明显的泛化能力。其次，泛化能力是流行的网络架构（MLP、CNN和Transformer）所共有的。第三，泛化性能受到受试者之间相似性的影响。我们的研究结果揭示了个体之间大脑活动的内在相似性。随着更大、更全面的数据集的出现，未来有可能训练一个脑解码基础模型。代码和模型可在https://github.com/Xiangtaokong/TGBD找到。

🔬 方法详解

问题定义：当前视觉脑解码研究主要针对特定个体进行训练和解码，缺乏将模型泛化到未见个体上的能力。不同个体的大脑活动存在差异，如何克服这些差异，实现跨个体的脑解码是本研究要解决的核心问题。现有方法通常为每个个体设计独立的网络结构或处理流程，导致模型参数量大，难以训练，且无法直接应用于新的个体。

核心思路：本研究的核心思路是学习个体之间大脑活动的共性特征，而不是针对每个个体进行特殊处理。通过对所有受试者采用统一的处理流程，模型能够学习到更具泛化性的特征表示，从而更好地适应未见个体。这种方法避免了为每个个体定制模型的需求，降低了模型复杂度，提高了训练效率。

技术框架：该研究使用包含177名受试者的图像-fMRI数据集，该数据集来自人类连接组计划（HCP）。提出的学习范式对所有受试者应用统一的处理，包括数据预处理、特征提取和解码。模型架构可以是MLP、CNN或Transformer等常见的神经网络结构。训练过程中，模型学习将视觉刺激与fMRI响应之间的映射关系，目标是最小化预测的fMRI响应与真实fMRI响应之间的差异。

关键创新：该研究的关键创新在于提出了一个通用的脑解码框架，该框架能够有效地泛化到未见个体。与以往针对个体定制模型的方法不同，该框架采用统一的处理流程，学习个体之间大脑活动的共性特征。这种方法不仅提高了模型的泛化能力，还降低了模型复杂度，使其更易于训练和部署。

关键设计：该研究的关键设计包括：1) 使用大规模的图像-fMRI数据集进行训练；2) 对所有受试者采用统一的数据预处理流程；3) 选择合适的神经网络架构（MLP、CNN或Transformer）作为解码器；4) 使用均方误差（MSE）等损失函数来衡量预测的fMRI响应与真实fMRI响应之间的差异；5) 通过实验分析不同受试者之间的相似性对泛化性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，随着训练受试者数量的增加，模型在未见个体上的解码性能显著提升，验证了该方法的泛化能力。研究还发现，该方法在不同的网络架构（MLP、CNN和Transformer）上均表现出良好的性能，表明其具有较强的适应性。此外，实验结果表明，受试者之间的相似性对泛化性能有显著影响，相似度高的受试者之间更容易实现泛化。

🎯 应用场景

该研究成果可应用于脑机接口、神经疾病诊断和治疗等领域。例如，可以利用该模型解码患者的大脑活动，从而实现对患者意图的识别和控制，帮助患者恢复运动功能。此外，该模型还可以用于研究不同个体之间大脑活动的差异，为神经科学研究提供新的思路和方法。未来，随着更大规模数据集的出现，有望训练出更强大的脑解码基础模型，为相关领域带来革命性的变革。

📄 摘要（原文）

Visual brain decoding aims to decode visual information from human brain activities. Despite the great progress, one critical limitation of current brain decoding research lies in the lack of generalization capability to unseen subjects. Prior works typically focus on decoding brain activity of individuals based on the observation that different subjects exhibit different brain activities, while it remains unclear whether brain decoding can be generalized to unseen subjects. This study aims to answer this question. We first consolidate an image-fMRI dataset consisting of stimulus-image and fMRI-response pairs, involving 177 subjects in the movie-viewing task of the Human Connectome Project (HCP). This dataset allows us to investigate the brain decoding performance with the increase of participants. We then present a learning paradigm that applies uniform processing across all subjects, instead of employing different network heads or tokenizers for individuals as in previous methods, which can accommodate a large number of subjects to explore the generalization capability across different subjects. A series of experiments are conducted and we have the following findings. First, the network exhibits clear generalization capabilities with the increase of training subjects. Second, the generalization capability is common to popular network architectures (MLP, CNN and Transformer). Third, the generalization performance is affected by the similarity between subjects. Our findings reveal the inherent similarities in brain activities across individuals. With the emerging of larger and more comprehensive datasets, it is possible to train a brain decoding foundation model in the future. Codes and models can be found at https://github.com/Xiangtaokong/TGBD.

Toward Generalizing Visual Brain Decoding to Unseen Subjects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理