Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

作者: Peter Yongho Kim, Juhyeon Park, Jungwoo Park, Jubin Choi, Jungwoo Seo, Jiook Cha, Taesup Moon

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

TABLeT：利用自然图像自编码器紧凑地 Token 化 fMRI 数据，用于长程动态建模。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: fMRI分析 长程动态建模 Transformer 自编码器 自然图像处理 自监督学习 脑科学

📋 核心要点

现有基于体素的fMRI模型虽然性能优异，但内存需求高昂，限制了其对长时间序列的建模能力。
TABLeT利用预训练的2D自然图像自编码器将3D fMRI数据压缩为紧凑的token序列，降低了计算复杂度。
实验表明，TABLeT在多个大规模fMRI数据集上优于现有模型，并在计算和内存效率方面有显著提升。

📝 摘要（中文）

对功能性磁共振成像(fMRI)中的长程时空动态进行建模仍然是一个关键挑战，因为四维信号的维度很高。先前的基于体素的模型虽然表现出卓越的性能和解释能力，但受到过高的内存需求的限制，因此只能捕获有限的时间窗口。为了解决这个问题，我们提出了TABLeT(二维自编码脑潜在Transformer)，这是一种新颖的方法，它使用预训练的2D自然图像自编码器来标记化fMRI体积。每个3D fMRI体积被压缩成一组紧凑的连续token，从而可以使用有限的VRAM的简单Transformer编码器进行长序列建模。在包括UK-Biobank(UKB)、Human Connectome Project(HCP)和ADHD-200数据集在内的大规模基准测试中，TABLeT在多个任务中优于现有模型，同时在给定相同输入的情况下，与最先进的基于体素的方法相比，在计算和内存效率方面表现出显著的提升。此外，我们开发了一种自监督的掩码token建模方法来预训练TABLeT，从而提高了模型在各种下游任务中的性能。我们的发现表明，这是一种可扩展且可解释的脑活动时空建模的有前途的方法。

🔬 方法详解

问题定义：论文旨在解决fMRI数据长程时空动态建模中，现有基于体素的方法因高维度数据带来的计算和内存瓶颈问题。这些方法虽然性能良好，但无法处理长时间序列，限制了其应用范围。

核心思路：论文的核心思路是利用预训练的2D自然图像自编码器，将3D fMRI数据体压缩成一组紧凑的连续token。这种方法降低了数据的维度，使得可以使用Transformer模型进行长序列建模，同时减少了计算和内存需求。

技术框架：TABLeT模型主要包含两个阶段：1) 使用预训练的2D自然图像自编码器将3D fMRI数据体编码为低维的token序列。2) 使用Transformer编码器对token序列进行建模，捕捉长程时空动态。此外，论文还采用了自监督的掩码token建模方法进行预训练，以提升模型性能。

关键创新：该方法最重要的创新点在于将自然图像领域的自编码器迁移到fMRI数据处理中，实现了对fMRI数据的高效压缩和token化。这使得可以使用Transformer模型处理更长的fMRI序列，从而更好地捕捉大脑活动的长程动态。与现有方法相比，TABLeT在计算效率和内存占用方面具有显著优势。

关键设计：论文使用了预训练的2D自然图像自编码器，具体结构未知。Transformer编码器采用标准结构，参数设置未知。自监督预训练阶段，采用掩码token建模，损失函数未知。具体的数据预处理和后处理方法未知。

🖼️ 关键图片

📊 实验亮点

TABLeT在UKB、HCP和ADHD-200等大规模数据集上进行了评估，结果表明，在多个任务中，TABLeT的性能优于现有模型。同时，TABLeT在计算和内存效率方面也表现出显著的提升，在相同输入条件下，优于最先进的基于体素的方法。自监督预训练进一步提升了TABLeT在下游任务中的性能。

🎯 应用场景

该研究成果可应用于多种脑科学研究领域，例如精神疾病诊断、认知功能分析、脑机接口等。通过对fMRI数据进行高效建模，可以更深入地理解大脑活动模式，为相关疾病的诊断和治疗提供新的思路。此外，该方法在计算效率方面的优势，使其更易于应用于大规模fMRI数据集的分析。

📄 摘要（原文）

Modeling long-range spatiotemporal dynamics in functional Magnetic Resonance Imaging (fMRI) remains a key challenge due to the high dimensionality of the four-dimensional signals. Prior voxel-based models, although demonstrating excellent performance and interpretation capabilities, are constrained by prohibitive memory demands and thus can only capture limited temporal windows. To address this, we propose TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), a novel approach that tokenizes fMRI volumes using a pre-trained 2D natural image autoencoder. Each 3D fMRI volume is compressed into a compact set of continuous tokens, enabling long-sequence modeling with a simple Transformer encoder with limited VRAM. Across large-scale benchmarks including the UK-Biobank (UKB), Human Connectome Project (HCP), and ADHD-200 datasets, TABLeT outperforms existing models in multiple tasks, while demonstrating substantial gains in computational and memory efficiency over the state-of-the-art voxel-based method given the same input. Furthermore, we develop a self-supervised masked token modeling approach to pre-train TABLeT, which improves the model's performance for various downstream tasks. Our findings suggest a promising approach for scalable and interpretable spatiotemporal modeling of brain activity. Our code is available atthis https URL.

Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理