A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli

📄 arXiv: 2507.18104v2 📥 PDF

作者: Qianyi He, Yuan Chang Leong

分类: cs.CV, q-bio.NC

发布日期: 2025-07-24 (更新: 2025-07-25)

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种多模态Seq2Seq Transformer,用于预测自然刺激下的大脑fMRI反应。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 序列到序列模型 Transformer fMRI预测 脑活动解码 自然刺激 时间序列建模

📋 核心要点

  1. 现有方法难以有效捕捉自然刺激下大脑活动的长程时间依赖性和个体差异。
  2. 提出一种多模态Seq2Seq Transformer,利用多模态上下文序列预测大脑活动序列,并结合共享编码器和个性化解码器。
  3. 模型在同分布和异分布数据上表现出色,验证了时间感知多模态序列建模的有效性。

📝 摘要(中文)

本文针对Algonauts 2025挑战赛,旨在开发编码模型,预测自然多模态电影刺激下全脑fMRI反应。我们提出了一种序列到序列的Transformer模型,该模型自回归地预测来自视觉、听觉和语言输入的fMRI活动。刺激特征通过预训练模型提取,包括VideoMAE、HuBERT、Qwen和BridgeTower。解码器通过双重交叉注意力机制整合来自先前大脑状态和当前刺激的信息,该机制关注从刺激中提取的感知信息以及由内容的高级摘要提供的叙述信息。该方法的一个核心创新是使用多模态上下文序列来预测大脑活动序列,从而使模型能够捕获刺激和神经反应中的长程时间结构。另一个创新是将共享编码器与部分特定于受试者的解码器相结合,从而利用跨受试者的共同表征结构,同时考虑个体差异。我们的模型在同分布和异分布数据上都取得了良好的性能,证明了时间感知、多模态序列建模对于大脑活动预测的有效性。代码可在https://github.com/Angelneer926/Algonauts_challenge 获取。

🔬 方法详解

问题定义:论文旨在解决利用自然多模态刺激(如电影)预测全脑fMRI反应的问题。现有方法在捕捉大脑活动中的长程时间依赖性以及个体差异方面存在不足,难以准确建模复杂的神经活动模式。

核心思路:论文的核心思路是利用序列到序列的Transformer模型,将多模态刺激作为输入序列,大脑fMRI活动作为输出序列,通过自回归的方式预测大脑活动。同时,采用共享编码器和个性化解码器的结构,以兼顾跨个体的共性特征和个体差异。

技术框架:整体框架包括以下几个主要模块:1) 特征提取模块:使用预训练模型(VideoMAE、HuBERT、Qwen、BridgeTower)提取视觉、听觉和语言特征。2) 共享编码器:对提取的多模态特征进行编码,学习刺激的联合表示。3) 个性化解码器:利用双重交叉注意力机制,整合来自先前大脑状态和当前刺激的信息,预测当前时刻的fMRI活动。解码器针对每个受试者进行部分定制。

关键创新:最重要的技术创新点在于:1) 使用多模态上下文序列预测大脑活动序列,从而能够捕获刺激和神经反应中的长程时间结构。2) 结合共享编码器和部分特定于受试者的解码器,从而利用跨受试者的共同表征结构,同时考虑个体差异。

关键设计:在解码器中,采用了双重交叉注意力机制,分别关注从刺激中提取的感知信息以及由内容的高级摘要提供的叙述信息。损失函数未知,网络结构细节未充分描述,但Transformer的基本结构被采用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在Algonauts 2025挑战赛的数据集上取得了优异的性能,在同分布和异分布数据上都表现出良好的泛化能力。具体性能数据未知,但结果表明,时间感知、多模态序列建模对于大脑活动预测是有效的。

🎯 应用场景

该研究成果可应用于神经科学领域,用于理解大脑如何处理多模态信息,以及不同个体对相同刺激的神经反应差异。此外,该模型还可用于开发脑机接口,实现基于大脑活动对外部设备的控制,或用于辅助诊断神经系统疾病。

📄 摘要(原文)

The Algonauts 2025 Challenge called on the community to develop encoding models that predict whole-brain fMRI responses to naturalistic multimodal movies. In this submission, we propose a sequence-to-sequence Transformer that autoregressively predicts fMRI activity from visual, auditory, and language inputs. Stimulus features were extracted using pretrained models including VideoMAE, HuBERT, Qwen, and BridgeTower. The decoder integrates information from prior brain states and current stimuli via dual cross-attention mechanisms that attend to both perceptual information extracted from the stimulus as well as narrative information provided by high-level summaries of the content. One core innovation of our approach is the use of sequences of multimodal context to predict sequences of brain activity, enabling the model to capture long-range temporal structure in both stimuli and neural responses. Another is the combination of a shared encoder with partial subject-specific decoder, which leverages common representational structure across subjects while accounting for individual variability. Our model achieves strong performance on both in-distribution and out-of-distribution data, demonstrating the effectiveness of temporally-aware, multimodal sequence modeling for brain activity prediction. The code is available at https://github.com/Angelneer926/Algonauts_challenge.