MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding
作者: Abdulkadir Gokce, Badr AlKhamissi, Martin Schrimpf
分类: cs.LG
发布日期: 2026-05-28
备注: Preprint. First two author contributed equally
💡 一句话要点
MIRAGE:自适应多模态门控的全脑fMRI编码模型,提升预测精度与可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全脑编码 fMRI 多模态融合 自适应门控 Transformer 视听语言 脑机接口
📋 核心要点
- 现有的脑编码模型主要依赖于单模态表征,无法充分利用自然刺激中的多模态信息。
- MIRAGE框架通过原生多模态骨干网络和自适应特征门控,有效融合视听语言信息,提升预测性能。
- 实验结果表明,MIRAGE在全脑fMRI预测中取得了state-of-the-art的性能,并提供了模态特异性的可解释性。
📝 摘要(中文)
本文提出了一种名为MIRAGE的全脑fMRI编码框架,用于预测自然视听刺激下的大脑反应。MIRAGE通过原生多模态骨干网络和跨层的自适应特征门控实现了最先进的性能。这些表征与基于Transformer的大脑编码器以及特定于受试者的皮质区域线性头相结合。受控比较表明,在架构级别和骨干网络中,原生多模态特征始终优于独立单模态特征的后验聚合。除了预测准确性之外,学习到的注意力权重可以直接检查,以解释骨干网络上的模态特定门控配置文件,并且每种模态都在皮质上追踪不同的解剖模式。总之,这些结果表明,原生多模态特征的自适应分层聚合是一种通用、可解释且准确的全脑编码方法。
🔬 方法详解
问题定义:现有的脑编码模型通常使用单模态特征或简单地将不同模态的特征进行拼接,无法充分捕捉自然视听刺激中模态间的复杂交互关系。此外,如何有效地融合不同模态的信息,并提取与大脑活动相关的关键特征,仍然是一个挑战。
核心思路:MIRAGE的核心思路是利用原生多模态骨干网络学习联合的视听语言表征,并通过自适应特征门控机制,动态地调整不同模态特征的权重,从而更好地预测全脑fMRI反应。这种方法能够捕捉模态间的复杂交互,并根据大脑活动的需求,选择性地关注不同模态的信息。
技术框架:MIRAGE框架包含以下几个主要模块:1)原生多模态骨干网络:用于提取视听语言刺激的联合表征。2)自适应特征门控:用于动态调整不同模态特征的权重。3)基于Transformer的大脑编码器:用于将多模态特征映射到大脑活动空间。4)受试者特异性线性头:用于预测特定受试者的皮质区域fMRI信号。
关键创新:MIRAGE的关键创新在于:1)提出了原生多模态骨干网络,能够学习联合的视听语言表征,避免了单模态特征的后验聚合。2)引入了自适应特征门控机制,能够动态地调整不同模态特征的权重,从而更好地适应大脑活动的需求。
关键设计:MIRAGE使用预训练的视觉、听觉和语言模型作为骨干网络,并使用可学习的门控权重来控制不同模态特征的贡献。损失函数包括预测fMRI信号的均方误差损失和正则化项,以防止过拟合。Transformer编码器用于学习多模态特征与大脑活动之间的映射关系。受试者特异性线性头用于校准个体差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MIRAGE在全脑fMRI预测中取得了state-of-the-art的性能,显著优于基于单模态特征或简单多模态特征融合的方法。此外,MIRAGE学习到的注意力权重能够揭示不同模态信息在大脑中的表征模式,为理解大脑功能提供了新的视角。具体来说,原生多模态特征在预测准确率上始终优于后验聚合的单模态特征。
🎯 应用场景
MIRAGE框架可应用于神经科学研究,例如理解大脑如何整合多模态信息,以及不同模态信息在大脑中的表征方式。此外,该框架还可以用于开发更有效的脑机接口,以及辅助诊断神经系统疾病,例如自闭症和阿尔茨海默病。未来,该方法可以扩展到其他感觉模态,例如触觉和嗅觉,从而构建更全面的大脑编码模型。
📄 摘要(原文)
Recent progress in task-optimized neural networks has established encoding models as a powerful tool for predicting brain responses to naturalistic stimuli, yet most existing approaches rely on unimodal representations. The emergence of omni-modal foundation models and rich multimodal neural datasets enables encoding models that jointly integrate visual, auditory, and linguistic information across subjects. We introduce MIRAGE, a brain encoding framework for predicting whole-brain fMRI responses to naturalistic audiovisual stimuli. MIRAGE achieves state-of-the-art performance via a native multimodal backbone and adaptive feature gating across layers. These representations are then combined with a transformer-based brain encoder and a subject-specific linear head over the cortical parcels. Controlled comparisons show that natively multimodal features consistently outperform post-hoc aggregation of independent unimodal features, across architectural levels and backbones. Beyond predictive accuracy, the learned attention weights are directly inspectable to interpret the modality-specific gating profile over the backbone, and each modality traces a distinct anatomical pattern across cortex. Together, these results propose adaptive layer-wise aggregation of natively multimodal features as a generalizable, interpretable, and accurate approach for whole-brain encoding.