SLIM-Brain: A Data- and Training-Efficient Foundation Model for fMRI Data Analysis
作者: Mo Wang, Junfeng Xia, Wenhao Ye, Enyu Liu, Kaining Peng, Jianfeng Feng, Quanying Liu, Hongkai Wen
分类: cs.CV, q-bio.NC
发布日期: 2025-12-26 (更新: 2026-01-30)
备注: release code
💡 一句话要点
SLIM-Brain:一种数据与训练高效的fMRI分析基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: fMRI分析 基础模型 脑成像 自监督学习 时间序列分析
📋 核心要点
- 现有fMRI分析基础模型在数据和训练效率上存在瓶颈,图谱法损失细节,无图谱法计算量大。
- SLIM-Brain通过两阶段自适应设计,利用轻量级时间提取器和分层编码器,提升数据和训练效率。
- 实验表明,SLIM-Brain在多个基准测试中达到SOTA,同时显著降低了预训练所需的数据量和计算资源。
📝 摘要(中文)
当前fMRI分析的基础模型面临数据和训练效率的双重瓶颈。基于图谱的方法将体素信号聚合到固定的感兴趣区域,降低了数据维度,但丢弃了细粒度的空间细节,并且需要极大的样本量才能有效地训练为通用基础模型。另一方面,无图谱方法直接在体素级别的信息上操作,保留了空间保真度,但对内存和计算要求极高,使得大规模预训练变得不可行。我们提出了SLIM-Brain,一种新型的无图谱基础模型,它同时提高了数据和训练效率。SLIM-Brain采用了一种两阶段自适应设计:(i)轻量级时间提取器捕获整个序列的全局上下文,并通过显著性对数据窗口进行排序;(ii)4D分层编码器(Hiera-JEPA)仅从前k个选定的窗口学习细粒度的体素级表示,同时删除约70%的掩码补丁。在七个公共基准上的大量实验表明,SLIM-Brain在各种任务上建立了新的最先进的性能,同时与传统的体素级方法相比,仅需要4千个预训练会话和大约30%的GPU内存。
🔬 方法详解
问题定义:现有的fMRI数据分析基础模型,要么依赖于图谱,损失了精细的空间信息,要么直接处理体素级别的数据,导致计算和内存需求过高,难以进行大规模预训练。因此,如何在保证空间分辨率的同时,降低计算复杂度,是本研究要解决的核心问题。
核心思路:SLIM-Brain的核心思路是通过一个两阶段的自适应设计,首先利用轻量级的时间提取器筛选出最具信息量的时序窗口,然后仅在这些窗口上进行细粒度的体素级别特征学习。这样既保留了空间细节,又大大减少了需要处理的数据量。
技术框架:SLIM-Brain的整体框架包含两个主要阶段:(1) 时间提取器:使用轻量级的网络结构(具体结构未知)从完整的fMRI时间序列中提取全局上下文信息,并根据显著性对数据窗口进行排序。(2) 4D分层编码器 (Hiera-JEPA):仅选择前k个最显著的窗口,并使用分层编码器学习细粒度的体素级别表示。Hiera-JEPA同时采用掩码策略,随机mask掉70%的patch,进一步减少计算量。
关键创新:SLIM-Brain的关键创新在于其自适应的数据选择机制和高效的4D分层编码器。通过时间提取器进行数据筛选,避免了对所有体素和时间点进行计算,显著降低了计算复杂度。Hiera-JEPA的掩码策略进一步提升了训练效率。
关键设计:时间提取器的具体网络结构未知,但强调了其轻量级特性。Hiera-JEPA的具体结构也未知,但强调了其分层特性和4D处理能力。论文中提到了top-k窗口的选择,以及70%的掩码比例,这些都是关键的设计参数。损失函数和优化器的具体选择未知。
🖼️ 关键图片
📊 实验亮点
SLIM-Brain在七个公共基准测试中取得了新的SOTA性能,证明了其有效性。更重要的是,SLIM-Brain仅需要4千个预训练会话,并且与传统的体素级方法相比,仅需约30%的GPU内存。这表明SLIM-Brain在数据和训练效率方面具有显著优势。
🎯 应用场景
SLIM-Brain的潜在应用领域包括脑疾病诊断、认知功能预测、个性化医疗等。通过高效地分析fMRI数据,可以更准确地识别疾病相关的脑活动模式,预测个体认知能力,并为患者提供更精准的治疗方案。该研究有望推动神经科学和医学领域的发展,为改善人类健康做出贡献。
📄 摘要(原文)
Foundation models are emerging as a powerful paradigm for fMRI analysis, but current approaches face a dual bottleneck of data- and training-efficiency. Atlas-based methods aggregate voxel signals into fixed regions of interest, reducing data dimensionality but discarding fine-grained spatial details, and requiring extremely large cohorts to train effectively as general-purpose foundation models. Atlas-free methods, on the other hand, operate directly on voxel-level information - preserving spatial fidelity but are prohibitively memory- and compute-intensive, making large-scale pre-training infeasible. We introduce SLIM-Brain (Sample-efficient, Low-memory fMRI Foundation Model for Human Brain), a new atlas-free foundation model that simultaneously improves both data- and training-efficiency. SLIM-Brain adopts a two-stage adaptive design: (i) a lightweight temporal extractor captures global context across full sequences and ranks data windows by saliency, and (ii) a 4D hierarchical encoder (Hiera-JEPA) learns fine-grained voxel-level representations only from the top-$k$ selected windows, while deleting about 70% masked patches. Extensive experiments across seven public benchmarks show that SLIM-Brain establishes new state-of-the-art performance on diverse tasks, while requiring only 4 thousand pre-training sessions and approximately 30% of GPU memory comparing to traditional voxel-level methods.