TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
作者: Stéphane d'Ascoli, Jérémy Rapin, Yohann Benchetrit, Hubert Banville, Jean-Rémi King
分类: cs.LG
发布日期: 2025-07-29
🔗 代码/项目: GITHUB
💡 一句话要点
TRIBE:用于全脑fMRI响应预测的三模态脑编码器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑编码 fMRI 多模态学习 Transformer 深度学习 神经科学 全脑预测
📋 核心要点
- 现有神经科学研究侧重于孤立模态,缺乏整合的认知模型,限制了对大脑的全面理解。
- TRIBE模型结合文本、音频和视频的预训练表示,利用Transformer处理时序信息,预测全脑fMRI响应。
- TRIBE在Algonauts 2025竞赛中显著优于其他模型,尤其在高层联合皮质区域表现突出。
📝 摘要(中文)
神经科学的发展历来是通过碎片化为专业领域来实现的,每个领域都专注于孤立的模态、任务或大脑区域。虽然这种方法富有成效,但它阻碍了统一认知模型的开发。本文介绍TRIBE,这是第一个深度神经网络,经过训练可以预测跨多种模态、皮质区域和个体的刺激的大脑反应。通过结合文本、音频和视频基础模型的预训练表示,并使用Transformer处理它们随时间变化的特性,我们的模型可以精确地模拟视频的空间和时间fMRI响应,在Algonauts 2025脑编码竞赛中以显著优势击败竞争对手,名列第一。消融实验表明,虽然单模态模型可以可靠地预测其相应的皮质网络(例如,视觉或听觉网络),但它们在高层联合皮质中系统地被我们的多模态模型所超越。目前应用于感知和理解,我们的方法为构建人类大脑中表征的整合模型铺平了道路。我们的代码可在https://github.com/facebookresearch/algonauts-2025获得。
🔬 方法详解
问题定义:现有神经科学研究通常将大脑活动分割为独立的模态和区域进行研究,缺乏一个统一的模型来整合不同模态的信息,从而难以全面理解大脑的认知过程。现有的脑编码模型通常只关注单一模态的刺激,无法有效预测大脑对复杂、多模态刺激的反应。
核心思路:TRIBE的核心思路是利用多模态学习,将来自文本、音频和视频的信息整合到一个统一的脑编码模型中。通过结合不同模态的预训练表示,模型能够捕捉到刺激中更丰富的语义信息,从而更准确地预测大脑的fMRI响应。Transformer架构被用于处理刺激的时序信息,使得模型能够捕捉到大脑对动态刺激的反应模式。
技术框架:TRIBE模型主要包含以下几个模块:1) 多模态编码器:使用预训练的文本、音频和视频模型提取刺激的特征表示。2) Transformer模块:处理多模态特征的时序信息,捕捉刺激的时间动态。3) fMRI解码器:将Transformer的输出映射到大脑的fMRI响应。整个模型采用端到端的方式进行训练,目标是最小化预测的fMRI响应与实际fMRI响应之间的差异。
关键创新:TRIBE的关键创新在于其多模态融合能力和全脑预测能力。与以往的单模态脑编码模型相比,TRIBE能够整合来自不同模态的信息,从而更全面地理解刺激的语义内容。此外,TRIBE能够预测整个大脑的fMRI响应,而不仅仅是特定区域的响应,这使得模型能够捕捉到大脑不同区域之间的相互作用。
关键设计:模型使用了预训练的文本(例如BERT)、音频和视频模型来提取特征。Transformer模块采用了标准的encoder-decoder结构,用于处理时序信息。fMRI解码器是一个线性层,将Transformer的输出映射到大脑的体素空间。损失函数采用了均方误差(MSE),用于衡量预测的fMRI响应与实际fMRI响应之间的差异。模型使用Adam优化器进行训练,学习率设置为1e-4,batch size设置为32。
🖼️ 关键图片
📊 实验亮点
TRIBE在Algonauts 2025脑编码竞赛中取得了第一名,显著优于其他参赛模型。在高层联合皮质区域,TRIBE的预测性能明显优于单模态模型,表明多模态融合对于理解复杂认知过程至关重要。具体性能提升数据未知,但摘要强调了“significant margin over competitors”。
🎯 应用场景
TRIBE模型可应用于神经科学研究,帮助理解大脑如何整合多模态信息,以及不同脑区之间的相互作用。在临床上,该模型可用于诊断和预测神经系统疾病,例如自闭症和阿尔茨海默病。此外,该模型还可用于开发更自然、更智能的人机交互系统,例如能够理解人类情感和意图的智能助手。
📄 摘要(原文)
Historically, neuroscience has progressed by fragmenting into specialized domains, each focusing on isolated modalities, tasks, or brain regions. While fruitful, this approach hinders the development of a unified model of cognition. Here, we introduce TRIBE, the first deep neural network trained to predict brain responses to stimuli across multiple modalities, cortical areas and individuals. By combining the pretrained representations of text, audio and video foundational models and handling their time-evolving nature with a transformer, our model can precisely model the spatial and temporal fMRI responses to videos, achieving the first place in the Algonauts 2025 brain encoding competition with a significant margin over competitors. Ablations show that while unimodal models can reliably predict their corresponding cortical networks (e.g. visual or auditory networks), they are systematically outperformed by our multimodal model in high-level associative cortices. Currently applied to perception and comprehension, our approach paves the way towards building an integrative model of representations in the human brain. Our code is available at https://github.com/facebookresearch/algonauts-2025.