Predicting Cognition from fMRI:A Comparative Study of Graph, Transformer, and Kernel Models Across Task and Rest Conditions

📄 arXiv: 2507.21016v1 📥 PDF

作者: Jagruti Patel, Mikkel Schöttner, Thomas A. W. Bolton, Patric Hagmann

分类: cs.LG, q-bio.NC

发布日期: 2025-07-28

备注: Preliminary version; a revised version will be uploaded later


💡 一句话要点

对比图、Transformer和核模型,论文旨在使用fMRI预测认知能力,并探索任务态和静息态数据的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: fMRI 认知预测 图神经网络 Transformer 功能连接 结构连接 深度学习 脑-行为建模

📋 核心要点

  1. 现有方法在利用fMRI数据预测认知能力时,未能充分挖掘神经影像数据的时空信息,模型选择和特征表示仍有提升空间。
  2. 论文提出结合结构连接和功能连接的图神经网络,并探索Transformer架构在捕捉fMRI时间动态方面的潜力,以提升认知预测的准确性。
  3. 实验结果表明,任务态fMRI优于静息态fMRI,结合SC和FC的GNN表现最佳,Transformer-GNN在任务态fMRI上表现良好,但在静息态数据上表现不佳。

📝 摘要(中文)

本研究旨在使用来自人类连接组计划(HCP)青年成人数据集的静息态(RS)、工作记忆和语言任务fMRI数据,系统地评估经典机器学习(核岭回归KRR)和先进深度学习(DL)模型(图神经网络GNN和Transformer-GNN TGNN)在认知预测方面的性能。结果表明,任务态fMRI在预测认知行为方面优于静息态fMRI。在比较的方法中,结合结构连接(SC)和功能连接(FC)的GNN在所有fMRI模态中始终表现最佳;然而,其相对于仅使用FC的KRR的优势在统计上并不显著。TGNN在任务态fMRI上表现与基于FC的方法相当,但在静息态数据上表现不佳。研究强调了选择合适的模型架构和特征表示以充分利用神经影像数据的时空丰富性的重要性。本研究突出了多模态图感知DL模型结合SC和FC进行认知预测的潜力,以及基于Transformer的方法在捕获时间动态方面的前景。通过对模型进行全面比较,本研究为使用fMRI、SC和DL推进脑-行为建模提供了指导。

🔬 方法详解

问题定义:论文旨在解决如何更有效地利用fMRI数据预测个体认知能力的问题。现有方法,如传统的机器学习模型,可能无法充分捕捉fMRI数据中复杂的时空依赖关系。深度学习模型,如GNN和Transformer,具有建模复杂关系的潜力,但如何将其有效应用于fMRI数据仍是一个挑战。现有方法的痛点在于对fMRI数据时空信息的利用不足,以及模型架构选择和特征表示上的局限性。

核心思路:论文的核心思路是探索不同的深度学习模型(GNN和Transformer-GNN)在fMRI认知预测任务中的性能,并比较它们与传统机器学习方法(KRR)的优劣。通过结合结构连接(SC)和功能连接(FC)信息,并利用Transformer架构建模时间动态,旨在更全面地利用fMRI数据的时空信息,从而提高认知预测的准确性。

技术框架:整体框架包括数据预处理、特征提取、模型训练和评估四个主要阶段。首先,对fMRI数据进行预处理,包括运动校正、空间标准化等。然后,提取功能连接(FC)和结构连接(SC)作为模型输入特征。接着,使用KRR、GNN和TGNN三种模型进行训练。最后,使用R2分数、Pearson相关系数和平均绝对误差等指标评估模型的预测性能。

关键创新:论文的关键创新在于:1) 比较了多种深度学习模型(GNN和TGNN)在fMRI认知预测任务中的性能;2) 探索了结合结构连接和功能连接信息的方法;3) 尝试使用Transformer架构建模fMRI数据的时间动态。与现有方法的本质区别在于,本研究更系统地比较了不同模型架构和特征表示方法,并关注了如何利用深度学习模型更有效地捕捉fMRI数据的时空信息。

关键设计:GNN模型使用图卷积网络对大脑区域之间的连接关系进行建模,节点特征可以是fMRI时间序列数据或功能连接强度。TGNN模型使用Transformer架构建模时间动态,并将结构连接作为先验知识引入模型。KRR模型使用高斯核函数,输入特征为功能连接强度。损失函数通常选择均方误差或平均绝对误差。模型的参数通过交叉验证进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,任务态fMRI在预测认知行为方面优于静息态fMRI。结合结构连接(SC)和功能连接(FC)的GNN在所有fMRI模态中表现最佳,但其相对于仅使用FC的KRR的优势在统计上不显著。TGNN在任务态fMRI上表现与基于FC的方法相当,但在静息态数据上表现不佳。这些结果表明,选择合适的模型架构和特征表示对于充分利用神经影像数据的时空信息至关重要。

🎯 应用场景

该研究的潜在应用领域包括精准医疗、神经和精神疾病的早期检测。通过更准确地预测认知能力,可以帮助医生更好地了解个体的大脑功能,从而制定更个性化的治疗方案。此外,该研究还可以为开发新型的脑机接口和认知增强技术提供理论基础。

📄 摘要(原文)

Predicting cognition from neuroimaging data in healthy individuals offers insights into the neural mechanisms underlying cognitive abilities, with potential applications in precision medicine and early detection of neurological and psychiatric conditions. This study systematically benchmarked classical machine learning (Kernel Ridge Regression (KRR)) and advanced deep learning (DL) models (Graph Neural Networks (GNN) and Transformer-GNN (TGNN)) for cognitive prediction using Resting-state (RS), Working Memory, and Language task fMRI data from the Human Connectome Project Young Adult dataset. Our results, based on R2 scores, Pearson correlation coefficient, and mean absolute error, revealed that task-based fMRI, eliciting neural responses directly tied to cognition, outperformed RS fMRI in predicting cognitive behavior. Among the methods compared, a GNN combining structural connectivity (SC) and functional connectivity (FC) consistently achieved the highest performance across all fMRI modalities; however, its advantage over KRR using FC alone was not statistically significant. The TGNN, designed to model temporal dynamics with SC as a prior, performed competitively with FC-based approaches for task-fMRI but struggled with RS data, where its performance aligned with the lower-performing GNN that directly used fMRI time-series data as node features. These findings emphasize the importance of selecting appropriate model architectures and feature representations to fully leverage the spatial and temporal richness of neuroimaging data. This study highlights the potential of multimodal graph-aware DL models to combine SC and FC for cognitive prediction, as well as the promise of Transformer-based approaches for capturing temporal dynamics. By providing a comprehensive comparison of models, this work serves as a guide for advancing brain-behavior modeling using fMRI, SC and DL.