The ISLab Solution to the Algonauts Challenge 2025: A Multimodal Deep Learning Approach to Brain Response Prediction

作者: Andrea Corsico, Giorgia Rigamonti, Simone Zini, Luigi Celona, Paolo Napoletano

分类: q-bio.NC, cs.AI

发布日期: 2025-07-25 (更新: 2025-10-27)

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于功能网络的深度学习方法，预测复杂多模态电影刺激下的大脑反应。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大脑反应预测 多模态融合 深度学习 功能网络 脑机接口

📋 核心要点

现有方法将大脑视为同质系统，忽略了不同功能网络间的差异，限制了预测大脑反应的精度。
论文将大脑功能网络聚类，为每个簇训练独立的MLP模型，实现簇特定的优化和自适应记忆建模。
实验结果表明，该方法显著提高了大脑反应预测的准确性，在Algonauts Project 2025 Challenge中取得了优异成绩。

📝 摘要（中文）

本文提出了一种网络特定的方法，用于预测复杂多模态电影刺激下的大脑反应。该方法利用Schaefer图谱的Yeo 7网络划分，将大脑视为一个由七个功能网络组成的系统，并将这些网络分为四个簇。针对每个簇，训练独立的多主体、多层感知器（MLP）模型。这种架构支持簇特定的优化和自适应记忆建模，允许每个模型根据其目标网络的功能角色调整时间动态和模态权重。实验结果表明，这种聚类策略显著提高了Schaefer图谱中1000个皮质区域的预测准确性。最终模型在Algonauts Project 2025 Challenge中排名第八，其超出分布（OOD）的相关性得分几乎是选择阶段使用的基线模型的两倍。代码已在https://github.com/Corsi01/algo2025上发布。

🔬 方法详解

问题定义：论文旨在解决复杂多模态电影刺激下，如何更准确地预测大脑对刺激的反应。现有方法通常将大脑视为一个同质系统，忽略了不同功能网络之间的差异，导致预测精度受限。此外，不同脑区对不同模态信息的处理方式和时间动态也存在差异，现有方法难以有效建模这些差异。

核心思路：论文的核心思路是将大脑划分为不同的功能网络簇，并为每个簇训练独立的深度学习模型。这种方法允许针对每个簇进行特定的优化，并根据其功能角色自适应地调整时间动态和模态权重。通过这种方式，可以更精细地捕捉不同脑区对多模态信息的处理方式，从而提高大脑反应预测的准确性。

技术框架：整体框架包括以下几个步骤：1) 使用Yeo 7网络划分的Schaefer图谱将大脑划分为七个功能网络。2) 将这七个网络聚类为四个簇。3) 为每个簇训练一个独立的多主体、多层感知器（MLP）模型。4) 每个MLP模型接收多模态电影刺激作为输入，并预测对应簇内脑区的fMRI信号。

关键创新：论文的关键创新在于提出了网络特定的建模方法，将大脑划分为不同的功能网络簇，并为每个簇训练独立的深度学习模型。这种方法能够更好地捕捉不同脑区对多模态信息的处理方式和时间动态，从而提高大脑反应预测的准确性。与现有方法相比，该方法更加精细化，能够更好地利用大脑的功能组织结构。

关键设计：论文使用了多层感知器（MLP）作为每个簇的模型。MLP的结构和参数根据每个簇的特点进行调整，以实现簇特定的优化。此外，论文还使用了自适应记忆建模技术，允许每个模型根据其目标网络的功能角色调整时间动态和模态权重。损失函数采用相关系数作为优化目标，以提高预测信号与真实信号的相关性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法显著提高了大脑反应预测的准确性。在Algonauts Project 2025 Challenge中，该模型排名第八，其超出分布（OOD）的相关性得分几乎是选择阶段使用的基线模型的两倍。这表明该方法具有良好的泛化能力和预测性能。

🎯 应用场景

该研究成果可应用于神经科学研究，例如深入理解大脑如何处理多模态信息，以及不同脑区之间的相互作用。此外，该技术还可应用于脑机接口、神经疾病诊断和治疗等领域，例如通过预测大脑对特定刺激的反应，实现更精准的脑部调控。

📄 摘要（原文）

In this work, we present a network-specific approach for predicting brain responses to complex multimodal movies, leveraging the Yeo 7-network parcellation of the Schaefer atlas. Rather than treating the brain as a homogeneous system, we grouped the seven functional networks into four clusters and trained separate multi-subject, multi-layer perceptron (MLP) models for each. This architecture supports cluster-specific optimization and adaptive memory modeling, allowing each model to adjust temporal dynamics and modality weighting based on the functional role of its target network. Our results demonstrate that this clustered strategy significantly enhances prediction accuracy across the 1,000 cortical regions of the Schaefer atlas. The final model achieved an eighth-place ranking in the Algonauts Project 2025 Challenge, with out-of-distribution (OOD) correlation scores nearly double those of the baseline model used in the selection phase. Code is available at https://github.com/Corsi01/algo2025.

The ISLab Solution to the Algonauts Challenge 2025: A Multimodal Deep Learning Approach to Brain Response Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理