Brain-DiT: A Universal Multi-state fMRI Foundation Model with Metadata-Conditioned Pretraining

📄 arXiv: 2604.12683v1 📥 PDF

作者: Junfeng Xia, Wenhao Ye, Xuanye Pan, Xinke Shen, Mo Wang, Quanying Liu

分类: cs.CV, q-bio.NC

发布日期: 2026-04-14

🔗 代码/项目: GITHUB


💡 一句话要点

Brain-DiT:基于元数据条件扩散预训练的通用多状态fMRI基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: fMRI 基础模型 扩散模型 Transformer 元数据条件预训练 脑状态 多尺度表示

📋 核心要点

  1. 现有fMRI基础模型依赖有限的脑状态和不匹配的预训练任务,限制了其学习跨不同脑状态的泛化表示的能力。
  2. Brain-DiT采用元数据条件扩散预训练,利用扩散Transformer学习多尺度表示,从而捕获细粒度功能结构和全局语义。
  3. 实验表明,基于扩散的生成预训练优于重建或对齐,且元数据条件预训练能有效提升下游任务的性能。

📝 摘要(中文)

本文提出Brain-DiT,一个通用的多状态fMRI基础模型,该模型在包含静息态、任务态、自然态、疾病态和睡眠态的24个数据集共349,898个会话上进行预训练。与以往依赖原始信号空间或潜在空间中掩码重建的fMRI基础模型不同,Brain-DiT采用基于扩散Transformer (DiT) 的元数据条件扩散预训练,使模型能够学习捕获细粒度功能结构和全局语义的多尺度表示。在7个下游任务的广泛评估和消融实验中,我们发现基于扩散的生成预训练比重建或对齐更有效,元数据条件预训练通过分离内在神经动力学和群体水平变异性进一步提高了下游性能。我们还观察到下游任务对表征尺度的偏好不同:ADNI分类更受益于全局语义表示,而年龄/性别预测更依赖于细粒度的局部结构。Brain-DiT的代码和参数可在https://github.com/REDMAO4869/Brain-DiT获取。

🔬 方法详解

问题定义:现有的fMRI基础模型通常只关注有限的脑状态,并且预训练任务与下游任务之间存在不匹配,导致模型无法学习到通用的、能够跨不同脑状态泛化的表示。此外,以往的模型主要依赖于原始信号空间或潜在空间的掩码重建,难以同时捕捉细粒度的功能结构和全局语义信息。

核心思路:Brain-DiT的核心思路是利用扩散模型进行生成式预训练,并引入元数据条件机制,从而学习到更具表达能力和泛化能力的fMRI表示。扩散模型能够学习数据的分布,从而生成高质量的fMRI数据,而元数据条件机制则可以使模型区分不同脑状态和个体之间的差异。

技术框架:Brain-DiT的整体框架包括以下几个主要模块:1) fMRI数据预处理模块,用于对原始fMRI数据进行降噪、配准等预处理操作;2) 扩散模型模块,采用Diffusion Transformer (DiT) 作为扩散模型的主体结构,用于学习fMRI数据的分布;3) 元数据编码模块,用于将与fMRI数据相关的元数据(如脑状态、年龄、性别等)编码成向量表示;4) 条件扩散模块,将元数据编码向量作为条件输入到扩散模型中,从而控制生成过程;5) 下游任务微调模块,将预训练好的Brain-DiT模型迁移到各种下游任务中进行微调。

关键创新:Brain-DiT的关键创新点在于:1) 采用扩散模型进行生成式预训练,相比于传统的重建方法,能够学习到更具表达能力的fMRI表示;2) 引入元数据条件机制,使模型能够区分不同脑状态和个体之间的差异,从而提高模型的泛化能力;3) 使用Diffusion Transformer (DiT) 作为扩散模型的主体结构,DiT具有强大的建模能力,能够有效地学习fMRI数据的复杂分布。

关键设计:在扩散模型方面,采用了标准的扩散过程和逆扩散过程,损失函数为标准的变分下界损失。元数据编码器可以使用简单的线性层或更复杂的神经网络。在DiT的结构方面,可以采用不同的Transformer变体,例如ViT或Swin Transformer。具体的参数设置需要根据数据集和计算资源进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Brain-DiT在7个下游任务上均取得了显著的性能提升。例如,在ADNI分类任务中,Brain-DiT的准确率优于其他基线模型。消融实验表明,基于扩散的生成预训练比重建或对齐更有效,元数据条件预训练能够进一步提高下游任务的性能。此外,研究还发现,不同的下游任务对表征尺度的偏好不同,ADNI分类更受益于全局语义表示,而年龄/性别预测更依赖于细粒度的局部结构。

🎯 应用场景

Brain-DiT具有广泛的应用前景,可用于脑疾病诊断、认知功能评估、脑机接口等领域。通过对fMRI数据进行分析,可以帮助医生更准确地诊断脑部疾病,评估患者的认知功能,并为脑机接口的设计提供理论指导。此外,该模型还可以用于研究不同脑状态下的神经活动模式,从而深入理解大脑的工作机制。

📄 摘要(原文)

Current fMRI foundation models primarily rely on a limited range of brain states and mismatched pretraining tasks, restricting their ability to learn generalized representations across diverse brain states. We present \textit{Brain-DiT}, a universal multi-state fMRI foundation model pretrained on 349,898 sessions from 24 datasets spanning resting, task, naturalistic, disease, and sleep states. Unlike prior fMRI foundation models that rely on masked reconstruction in the raw-signal space or a latent space, \textit{Brain-DiT} adopts metadata-conditioned diffusion pretraining with a Diffusion Transformer (DiT), enabling the model to learn multi-scale representations that capture both fine-grained functional structure and global semantics. Across extensive evaluations and ablations on 7 downstream tasks, we find consistent evidence that diffusion-based generative pretraining is a stronger proxy than reconstruction or alignment, with metadata-conditioned pretraining further improving downstream performance by disentangling intrinsic neural dynamics from population-level variability. We also observe that downstream tasks exhibit distinct preferences for representational scale: ADNI classification benefits more from global semantic representations, whereas age/sex prediction comparatively relies more on fine-grained local structure. Code and parameters of Brain-DiT are available at \href{https://github.com/REDMAO4869/Brain-DiT}{Link}.