Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?
作者: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
TABLeT:利用自然图像自编码器紧凑地 Token 化 fMRI 数据,用于长程动态建模。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: fMRI分析 长程动态建模 Transformer 自编码器 自然图像处理 自监督学习 脑科学
📋 核心要点
- 现有基于体素的fMRI模型虽然性能优异,但内存需求高昂,限制了其对长时间序列的建模能力。
- TABLeT利用预训练的2D自然图像自编码器将3D fMRI数据压缩为紧凑的token序列,降低了计算复杂度。
- 实验表明,TABLeT在多个大规模fMRI数据集上优于现有模型,并在计算和内存效率方面有显著提升。
📝 摘要(中文)
对功能性磁共振成像(fMRI)中的长程时空动态进行建模仍然是一个关键挑战,因为四维信号的维度很高。先前的基于体素的模型虽然表现出卓越的性能和解释能力,但受到过高的内存需求的限制,因此只能捕获有限的时间窗口。为了解决这个问题,我们提出了TABLeT(二维自编码脑潜在Transformer),这是一种新颖的方法,它使用预训练的2D自然图像自编码器来标记化fMRI体积。每个3D fMRI体积被压缩成一组紧凑的连续token,从而可以使用有限的VRAM的简单Transformer编码器进行长序列建模。在包括UK-Biobank(UKB)、Human Connectome Project(HCP)和ADHD-200数据集在内的大规模基准测试中,TABLeT在多个任务中优于现有模型,同时在给定相同输入的情况下,与最先进的基于体素的方法相比,在计算和内存效率方面表现出显著的提升。此外,我们开发了一种自监督的掩码token建模方法来预训练TABLeT,从而提高了模型在各种下游任务中的性能。我们的发现表明,这是一种可扩展且可解释的脑活动时空建模的有前途的方法。
🔬 方法详解
问题定义:论文旨在解决fMRI数据长程时空动态建模中,现有基于体素的方法因高维度数据带来的计算和内存瓶颈问题。这些方法虽然性能良好,但无法处理长时间序列,限制了其应用范围。
核心思路:论文的核心思路是利用预训练的2D自然图像自编码器,将3D fMRI数据体压缩成一组紧凑的连续token。这种方法降低了数据的维度,使得可以使用Transformer模型进行长序列建模,同时减少了计算和内存需求。
技术框架:TABLeT模型主要包含两个阶段:1) 使用预训练的2D自然图像自编码器将3D fMRI数据体编码为低维的token序列。2) 使用Transformer编码器对token序列进行建模,捕捉长程时空动态。此外,论文还采用了自监督的掩码token建模方法进行预训练,以提升模型性能。
关键创新:该方法最重要的创新点在于将自然图像领域的自编码器迁移到fMRI数据处理中,实现了对fMRI数据的高效压缩和token化。这使得可以使用Transformer模型处理更长的fMRI序列,从而更好地捕捉大脑活动的长程动态。与现有方法相比,TABLeT在计算效率和内存占用方面具有显著优势。
关键设计:论文使用了预训练的2D自然图像自编码器,具体结构未知。Transformer编码器采用标准结构,参数设置未知。自监督预训练阶段,采用掩码token建模,损失函数未知。具体的数据预处理和后处理方法未知。
🖼️ 关键图片
📊 实验亮点
TABLeT在UKB、HCP和ADHD-200等大规模数据集上进行了评估,结果表明,在多个任务中,TABLeT的性能优于现有模型。同时,TABLeT在计算和内存效率方面也表现出显著的提升,在相同输入条件下,优于最先进的基于体素的方法。自监督预训练进一步提升了TABLeT在下游任务中的性能。
🎯 应用场景
该研究成果可应用于多种脑科学研究领域,例如精神疾病诊断、认知功能分析、脑机接口等。通过对fMRI数据进行高效建模,可以更深入地理解大脑活动模式,为相关疾病的诊断和治疗提供新的思路。此外,该方法在计算效率方面的优势,使其更易于应用于大规模fMRI数据集的分析。
📄 摘要(原文)
Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available atthis https URL.