Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing
作者: Xuanhua Yin, Runkai Zhao, Weidong Cai
分类: cs.AI
发布日期: 2025-10-06 (更新: 2025-10-10)
备注: 7 pages, 4 figures
💡 一句话要点
提出AFIRE与MIND框架,解决自然场景下多模态脑编码模型的主体差异问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态脑编码 fMRI 混合专家 主体感知 动态路由 神经影像 自然场景理解
📋 核心要点
- 自然场景fMRI编码面临多模态融合和个体差异挑战,现有方法难以有效处理。
- AFIRE框架解耦编码器和解码器,MIND解码器利用主体先验动态调整专家组合。
- 实验证明,该方法在跨主体泛化和性能上优于现有方法,并具有可解释性。
📝 摘要(中文)
本文提出了一种用于多模态fMRI响应编码的通用框架AFIRE(Agnostic Framework for Multimodal fMRI Response Encoding),旨在解决自然场景下fMRI编码中多模态输入、融合方式变化以及显著的个体差异等问题。AFIRE提供了一个通用的接口,用于标准化来自不同编码器的、时间对齐的后融合tokens。同时,提出了MIND,一个即插即用的混合专家解码器,它采用主体感知的动态门控机制。通过端到端训练进行全脑预测,AFIRE将解码器与上游融合解耦,而MIND结合了token相关的Top-K稀疏路由和主体先验,以个性化专家使用,同时不牺牲通用性。在多个多模态骨干网络和主体上的实验表明,该方法相对于强大的基线具有一致的改进,增强了跨主体泛化能力,并产生了与内容类型相关的可解释的专家模式。该框架为新的编码器和数据集提供了一个简单的连接点,从而为自然神经影像研究提供稳健的、即插即用的性能。
🔬 方法详解
问题定义:自然场景下的fMRI脑编码模型需要处理来自不同模态(如视觉、听觉)的信息,并且不同个体的大脑活动模式存在显著差异。现有的方法通常难以有效地融合多模态信息,并且难以适应个体差异,导致预测精度下降和泛化能力不足。
核心思路:本文的核心思路是解耦编码器和解码器,并引入主体感知的动态路由机制。通过AFIRE框架,将来自不同编码器的多模态信息进行标准化处理,使得解码器可以独立于特定的编码器进行训练。同时,MIND解码器利用主体先验信息,动态地选择合适的专家组合,从而实现个体化的脑活动预测。
技术框架:整体框架包括两个主要部分:AFIRE和MIND。AFIRE作为一个通用接口,接收来自不同多模态编码器的输出,并将其转换为标准化的tokens。MIND是一个混合专家解码器,它包含多个专家网络,每个专家网络负责处理特定类型的信息或特定个体的脑活动模式。MIND使用一个动态门控机制,根据输入tokens和主体先验信息,选择Top-K个专家进行加权组合,最终输出预测结果。整个框架通过端到端的方式进行训练。
关键创新:最重要的技术创新点在于MIND解码器中的主体感知动态路由机制。该机制结合了token相关的Top-K稀疏路由和主体先验信息,使得解码器可以根据输入内容和个体特征,动态地选择合适的专家组合。这种方法既能够利用多个专家的优势,又能够避免过度拟合,从而提高模型的泛化能力。
关键设计:MIND解码器使用了混合专家(Mixture-of-Experts, MoE)结构,其中专家的数量是一个重要的参数。Top-K稀疏路由中的K值决定了每次选择的专家数量,需要根据数据集的大小和复杂程度进行调整。主体先验信息可以通过个体ID或其他相关信息进行编码。损失函数通常包括预测误差和正则化项,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AFIRE和MIND框架在多个多模态骨干网络和主体上均取得了显著的性能提升。与强大的基线方法相比,该方法在预测精度和跨主体泛化能力方面均有明显改善。此外,实验还表明,MIND解码器学习到的专家模式与内容类型相关,具有一定的可解释性。
🎯 应用场景
该研究成果可应用于神经科学研究,例如理解大脑如何处理多模态信息,以及个体差异如何影响脑活动模式。此外,该方法还可以用于开发个性化的脑机接口,帮助患者恢复运动或交流能力。未来,该技术有望应用于精神疾病的诊断和治疗,例如通过分析患者的脑活动模式,预测治疗效果或评估病情进展。
📄 摘要(原文)
Naturalistic fMRI encoding must handle multimodal inputs, shifting fusion styles, and pronounced inter-subject variability. We introduce AFIRE (Agnostic Framework for Multimodal fMRI Response Encoding), an agnostic interface that standardizes time-aligned post-fusion tokens from varied encoders, and MIND, a plug-and-play Mixture-of-Experts decoder with a subject-aware dynamic gating. Trained end-to-end for whole-brain prediction, AFIRE decouples the decoder from upstream fusion, while MIND combines token-dependent Top-K sparse routing with a subject prior to personalize expert usage without sacrificing generality. Experiments across multiple multimodal backbones and subjects show consistent improvements over strong baselines, enhanced cross-subject generalization, and interpretable expert patterns that correlate with content type. The framework offers a simple attachment point for new encoders and datasets, enabling robust, plug-and-improve performance for naturalistic neuroimaging studies.