Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

📄 arXiv: 2604.08537v1 📥 PDF

作者: Mu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo

分类: cs.LG, q-bio.NC

发布日期: 2026-04-09

备注: Accepted to CVPR 2026, website: https://github.com/ezacngm/brainCodec


💡 一句话要点

提出一种基于元学习的上下文学习方法,实现无需训练的跨个体脑解码。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑解码 元学习 上下文学习 fMRI 跨个体泛化

📋 核心要点

  1. 跨个体脑解码面临个体间神经表征差异大的挑战,传统方法需要为每个个体训练或微调模型。
  2. 论文提出基于元学习的上下文学习方法,通过少量个体数据快速适应新的神经编码模式,实现高效解码。
  3. 实验表明,该方法在跨个体和跨扫描仪上具有良好的泛化能力,无需重新训练或解剖对齐。

📝 摘要(中文)

本文提出了一种基于元优化的方法,用于从fMRI信号中进行语义视觉解码,该方法能够泛化到新的个体,而无需任何微调。通过简单地以来自新个体的少量图像-大脑激活示例为条件,我们的模型能够快速推断出其独特的神经编码模式,从而促进稳健而高效的视觉解码。该方法经过显式优化,用于新个体编码模型的上下文学习,并通过分层推理(反转编码器)执行解码。首先,对于多个大脑区域,我们通过构建多个刺激和响应的上下文来估计每个体素的视觉响应编码器参数。其次,我们构建一个由多个体素的编码器参数和响应值组成的上下文,以执行聚合功能反演。实验表明,该方法在不同的视觉骨干网络上实现了强大的跨个体和跨扫描仪泛化,而无需重新训练或微调。此外,该方法既不需要解剖对齐,也不需要刺激重叠。这项工作是朝着非侵入性脑解码的通用基础模型迈出的关键一步。

🔬 方法详解

问题定义:现有的脑解码方法在跨个体泛化时面临挑战,因为不同个体的大脑神经表征存在显著差异。传统方法通常需要针对每个个体进行单独的模型训练或微调,这需要大量的标注数据和计算资源,并且难以实现真正的跨个体泛化。此外,解剖结构上的差异也增加了跨个体脑解码的难度。

核心思路:本文的核心思路是利用元学习的上下文学习能力,使模型能够仅通过少量来自新个体的数据样本,快速学习并适应该个体的神经编码模式。通过构建合适的上下文信息,模型能够推断出个体特异性的编码器参数,从而实现无需训练的跨个体脑解码。这种方法避免了为每个个体单独训练模型的需要,大大提高了效率和泛化能力。

技术框架:该方法主要包含两个阶段:1) 估计每个体素的视觉响应编码器参数。对于多个大脑区域,通过构建多个刺激和响应的上下文来估计每个体素的视觉响应编码器参数。2) 执行聚合功能反演。构建一个由多个体素的编码器参数和响应值组成的上下文,以执行聚合功能反演,从而实现视觉解码。整个框架利用分层推理,首先学习个体层面的编码器参数,然后利用这些参数进行解码。

关键创新:该方法最重要的创新点在于利用元学习实现了无需训练的跨个体脑解码。与传统方法需要为每个个体单独训练或微调模型不同,该方法通过上下文学习,仅需少量数据即可适应新的个体。此外,该方法不需要解剖对齐或刺激重叠,进一步提高了其通用性和易用性。

关键设计:该方法的关键设计包括:1) 上下文构建:如何选择合适的刺激和响应样本来构建上下文,以最大程度地提取个体特异性的神经编码信息。2) 编码器参数估计:如何设计有效的编码器模型和损失函数,以准确估计每个体素的视觉响应编码器参数。3) 功能反演:如何利用估计的编码器参数和响应值,进行有效的视觉解码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在跨个体和跨扫描仪的视觉解码任务中取得了显著的性能。该方法在多个视觉骨干网络上实现了强大的泛化能力,无需重新训练或微调。此外,该方法不需要解剖对齐或刺激重叠,进一步提高了其通用性和易用性。这些结果表明,该方法是朝着非侵入性脑解码的通用基础模型迈出的关键一步。

🎯 应用场景

该研究成果可应用于脑机接口、神经疾病诊断、认知功能评估等领域。例如,可以开发无需校准的脑机接口系统,提高用户体验。在神经疾病诊断方面,可以利用该方法检测个体神经编码模式的异常,辅助疾病诊断。此外,该方法还可以用于研究不同个体之间的认知差异,深入理解人类大脑的工作机制。

📄 摘要(原文)

Visual decoding from brain signals is a key challenge at the intersection of computer vision and neuroscience, requiring methods that bridge neural representations and computational models of vision. A field-wide goal is to achieve generalizable, cross-subject models. A major obstacle towards this goal is the substantial variability in neural representations across individuals, which has so far required training bespoke models or fine-tuning separately for each subject. To address this challenge, we introduce a meta-optimized approach for semantic visual decoding from fMRI that generalizes to novel subjects without any fine-tuning. By simply conditioning on a small set of image-brain activation examples from the new individual, our model rapidly infers their unique neural encoding patterns to facilitate robust and efficient visual decoding. Our approach is explicitly optimized for in-context learning of the new subject's encoding model and performs decoding by hierarchical inference, inverting the encoder. First, for multiple brain regions, we estimate the per-voxel visual response encoder parameters by constructing a context over multiple stimuli and responses. Second, we construct a context consisting of encoder parameters and response values over multiple voxels to perform aggregated functional inversion. We demonstrate strong cross-subject and cross-scanner generalization across diverse visual backbones without retraining or fine-tuning. Moreover, our approach requires neither anatomical alignment nor stimulus overlap. This work is a critical step towards a generalizable foundation model for non-invasive brain decoding.