Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing

作者: Xuanhua Yin, Runkai Zhao, Weidong Cai

分类: cs.AI

发布日期: 2025-10-06 (更新: 2025-10-10)

备注: 7 pages, 4 figures

💡 一句话要点

提出AFIRE与MIND框架，解决自然场景下多模态脑编码模型的主体差异问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态脑编码 fMRI 混合专家 主体感知 动态路由 神经影像 自然场景理解

📋 核心要点

自然场景fMRI编码面临多模态融合和个体差异挑战，现有方法难以有效处理。
AFIRE框架解耦编码器和解码器，MIND解码器利用主体先验动态调整专家组合。
实验证明，该方法在跨主体泛化和性能上优于现有方法，并具有可解释性。

📝 摘要（中文）

本文提出了一种用于多模态fMRI响应编码的通用框架AFIRE（Agnostic Framework for Multimodal fMRI Response Encoding），旨在解决自然场景下fMRI编码中多模态输入、融合方式变化以及显著的个体差异等问题。AFIRE提供了一个通用的接口，用于标准化来自不同编码器的、时间对齐的后融合tokens。同时，提出了MIND，一个即插即用的混合专家解码器，它采用主体感知的动态门控机制。通过端到端训练进行全脑预测，AFIRE将解码器与上游融合解耦，而MIND结合了token相关的Top-K稀疏路由和主体先验，以个性化专家使用，同时不牺牲通用性。在多个多模态骨干网络和主体上的实验表明，该方法相对于强大的基线具有一致的改进，增强了跨主体泛化能力，并产生了与内容类型相关的可解释的专家模式。该框架为新的编码器和数据集提供了一个简单的连接点，从而为自然神经影像研究提供稳健的、即插即用的性能。

🔬 方法详解

问题定义：自然场景下的fMRI脑编码模型需要处理来自不同模态（如视觉、听觉）的信息，并且不同个体的大脑活动模式存在显著差异。现有的方法通常难以有效地融合多模态信息，并且难以适应个体差异，导致预测精度下降和泛化能力不足。

核心思路：本文的核心思路是解耦编码器和解码器，并引入主体感知的动态路由机制。通过AFIRE框架，将来自不同编码器的多模态信息进行标准化处理，使得解码器可以独立于特定的编码器进行训练。同时，MIND解码器利用主体先验信息，动态地选择合适的专家组合，从而实现个体化的脑活动预测。

技术框架：整体框架包括两个主要部分：AFIRE和MIND。AFIRE作为一个通用接口，接收来自不同多模态编码器的输出，并将其转换为标准化的tokens。MIND是一个混合专家解码器，它包含多个专家网络，每个专家网络负责处理特定类型的信息或特定个体的脑活动模式。MIND使用一个动态门控机制，根据输入tokens和主体先验信息，选择Top-K个专家进行加权组合，最终输出预测结果。整个框架通过端到端的方式进行训练。

关键创新：最重要的技术创新点在于MIND解码器中的主体感知动态路由机制。该机制结合了token相关的Top-K稀疏路由和主体先验信息，使得解码器可以根据输入内容和个体特征，动态地选择合适的专家组合。这种方法既能够利用多个专家的优势，又能够避免过度拟合，从而提高模型的泛化能力。

关键设计：MIND解码器使用了混合专家（Mixture-of-Experts, MoE）结构，其中专家的数量是一个重要的参数。Top-K稀疏路由中的K值决定了每次选择的专家数量，需要根据数据集的大小和复杂程度进行调整。主体先验信息可以通过个体ID或其他相关信息进行编码。损失函数通常包括预测误差和正则化项，以防止过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AFIRE和MIND框架在多个多模态骨干网络和主体上均取得了显著的性能提升。与强大的基线方法相比，该方法在预测精度和跨主体泛化能力方面均有明显改善。此外，实验还表明，MIND解码器学习到的专家模式与内容类型相关，具有一定的可解释性。

🎯 应用场景

该研究成果可应用于神经科学研究，例如理解大脑如何处理多模态信息，以及个体差异如何影响脑活动模式。此外，该方法还可以用于开发个性化的脑机接口，帮助患者恢复运动或交流能力。未来，该技术有望应用于精神疾病的诊断和治疗，例如通过分析患者的脑活动模式，预测治疗效果或评估病情进展。

📄 摘要（原文）

Naturalistic fMRI encoding must handle multimodal inputs, shifting fusion styles, and pronounced inter-subject variability. We introduce AFIRE (Agnostic Framework for Multimodal fMRI Response Encoding), an agnostic interface that standardizes time-aligned post-fusion tokens from varied encoders, and MIND, a plug-and-play Mixture-of-Experts decoder with a subject-aware dynamic gating. Trained end-to-end for whole-brain prediction, AFIRE decouples the decoder from upstream fusion, while MIND combines token-dependent Top-K sparse routing with a subject prior to personalize expert usage without sacrificing generality. Experiments across multiple multimodal backbones and subjects show consistent improvements over strong baselines, enhanced cross-subject generalization, and interpretable expert patterns that correlate with content type. The framework offers a simple attachment point for new encoders and datasets, enabling robust, plug-and-improve performance for naturalistic neuroimaging studies.

Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理