Scaling Vision Transformers for Functional MRI with Flat Maps

📄 arXiv: 2510.13768v1 📥 PDF

作者: Connor Lane, Daniel Z. Kaplan, Tanishq Mathew Abraham, Paul S. Scotti

分类: cs.CV, cs.AI, q-bio.NC

发布日期: 2025-10-15

备注: NeurIPS 2025 Workshop, Foundation Models for the Brain and Body; Code: https://github.com/MedARC-AI/fmri-fm; Discord: https://discord.gg/tVR4TWnRM9

🔗 代码/项目: GITHUB


💡 一句话要点

利用平面图和视觉Transformer扩展功能磁共振成像研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 功能磁共振成像 视觉Transformer 掩码自编码器 脑连接组 深度学习

📋 核心要点

  1. 现有fMRI数据分析方法难以有效利用大规模数据集,且缺乏与深度学习架构的有效衔接。
  2. 论文提出将4D fMRI数据转换为2D平面图视频,并利用视觉Transformer进行时空掩码自编码建模。
  3. 实验表明,该方法在下游分类任务中表现出色,能够解码受试者状态和个体特征。

📝 摘要(中文)

为了将现代深度学习架构应用于功能磁共振成像(fMRI),一个关键问题是如何表示模型输入的数据。为了弥合fMRI和自然图像之间的模态差距,我们将4D体积fMRI数据转换为2D fMRI活动平面图的视频。我们使用时空掩码自编码器(MAE)框架,在来自人类连接组计划的2.3K小时的fMRI平面图视频上训练视觉Transformer。我们观察到,掩码fMRI建模性能随着数据集大小的增加而严格遵循幂律缩放。下游分类基准测试表明,我们的模型学习了丰富的表示,支持跨受试者的细粒度状态解码,以及跨大脑状态变化的受试者特定特征解码。这项工作是一个正在进行的开放科学项目的一部分,旨在为fMRI数据构建基础模型。我们的代码和数据集可在https://github.com/MedARC-AI/fmri-fm上找到。

🔬 方法详解

问题定义:论文旨在解决如何将大规模fMRI数据有效地输入到深度学习模型,特别是视觉Transformer中的问题。现有的fMRI数据处理方法通常难以直接应用于深度学习架构,并且缺乏对时空信息的有效利用。此外,如何利用大规模fMRI数据集训练出具有泛化能力的模型也是一个挑战。

核心思路:论文的核心思路是将4D fMRI数据转换为2D fMRI活动平面图的视频,从而将fMRI数据转换为类似于自然图像视频的数据格式。这种转换使得可以直接利用在自然图像视频上训练的视觉Transformer架构。通过在大量fMRI平面图视频上进行预训练,模型可以学习到fMRI数据的内在结构和表示。

技术框架:整体框架包括以下几个主要步骤:1) 将4D fMRI数据转换为2D fMRI活动平面图视频。2) 使用时空掩码自编码器(MAE)框架在大量fMRI平面图视频上预训练视觉Transformer。3) 在下游分类任务上评估预训练模型的性能,包括跨受试者的状态解码和受试者特定特征解码。

关键创新:该论文的关键创新在于将fMRI数据转换为平面图视频,从而能够利用视觉Transformer进行建模。此外,论文还探索了使用时空掩码自编码器(MAE)框架进行fMRI数据预训练的方法,并验证了其有效性。通过这种方式,模型能够学习到fMRI数据的时空特征,从而在下游任务中取得更好的性能。

关键设计:论文使用了视觉Transformer作为基础模型,并采用了时空掩码自编码器(MAE)框架进行预训练。在MAE框架中,一部分输入视频帧被随机掩盖,模型需要根据未被掩盖的帧来预测被掩盖的帧。这种预训练方式可以有效地学习到fMRI数据的时空依赖关系。论文使用了来自人类连接组计划的2.3K小时的fMRI平面图视频进行训练,并使用标准的分类基准测试来评估模型的性能。

📊 实验亮点

实验结果表明,掩码fMRI建模性能随着数据集大小的增加而严格遵循幂律缩放,验证了大规模数据训练的有效性。下游分类基准测试显示,该模型能够学习到丰富的表示,支持跨受试者的细粒度状态解码,以及跨大脑状态变化的受试者特定特征解码。这些结果表明,该方法能够有效地提取fMRI数据中的有用信息。

🎯 应用场景

该研究成果可应用于脑疾病诊断、认知状态解码、个体特征预测等领域。通过构建fMRI数据的基础模型,可以为神经科学研究提供强大的工具,加速对大脑功能和连接的理解。未来,该方法有望应用于临床,辅助医生进行疾病诊断和治疗方案制定。

📄 摘要(原文)

A key question for adapting modern deep learning architectures to functional MRI (fMRI) is how to represent the data for model input. To bridge the modality gap between fMRI and natural images, we transform the 4D volumetric fMRI data into videos of 2D fMRI activity flat maps. We train Vision Transformers on 2.3K hours of fMRI flat map videos from the Human Connectome Project using the spatiotemporal masked autoencoder (MAE) framework. We observe that masked fMRI modeling performance improves with dataset size according to a strict power scaling law. Downstream classification benchmarks show that our model learns rich representations supporting both fine-grained state decoding across subjects, as well as subject-specific trait decoding across changes in brain state. This work is part of an ongoing open science project to build foundation models for fMRI data. Our code and datasets are available at https://github.com/MedARC-AI/fmri-fm.