SLIM-Brain: A Data- and Training-Efficient Foundation Model for fMRI Data Analysis

作者: Mo Wang, Junfeng Xia, Wenhao Ye, Enyu Liu, Kaining Peng, Jianfeng Feng, Quanying Liu, Hongkai Wen

分类: cs.CV, q-bio.NC

发布日期: 2025-12-26 (更新: 2026-01-30)

备注: release code

💡 一句话要点

SLIM-Brain：一种数据与训练高效的fMRI分析基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: fMRI分析 基础模型 脑成像 自监督学习 时间序列分析

📋 核心要点

现有fMRI分析基础模型在数据和训练效率上存在瓶颈，图谱法损失细节，无图谱法计算量大。
SLIM-Brain通过两阶段自适应设计，利用轻量级时间提取器和分层编码器，提升数据和训练效率。
实验表明，SLIM-Brain在多个基准测试中达到SOTA，同时显著降低了预训练所需的数据量和计算资源。

📝 摘要（中文）

当前fMRI分析的基础模型面临数据和训练效率的双重瓶颈。基于图谱的方法将体素信号聚合到固定的感兴趣区域，降低了数据维度，但丢弃了细粒度的空间细节，并且需要极大的样本量才能有效地训练为通用基础模型。另一方面，无图谱方法直接在体素级别的信息上操作，保留了空间保真度，但对内存和计算要求极高，使得大规模预训练变得不可行。我们提出了SLIM-Brain，一种新型的无图谱基础模型，它同时提高了数据和训练效率。SLIM-Brain采用了一种两阶段自适应设计：（i）轻量级时间提取器捕获整个序列的全局上下文，并通过显著性对数据窗口进行排序；（ii）4D分层编码器（Hiera-JEPA）仅从前k个选定的窗口学习细粒度的体素级表示，同时删除约70%的掩码补丁。在七个公共基准上的大量实验表明，SLIM-Brain在各种任务上建立了新的最先进的性能，同时与传统的体素级方法相比，仅需要4千个预训练会话和大约30%的GPU内存。

🔬 方法详解

问题定义：现有的fMRI数据分析基础模型，要么依赖于图谱，损失了精细的空间信息，要么直接处理体素级别的数据，导致计算和内存需求过高，难以进行大规模预训练。因此，如何在保证空间分辨率的同时，降低计算复杂度，是本研究要解决的核心问题。

核心思路：SLIM-Brain的核心思路是通过一个两阶段的自适应设计，首先利用轻量级的时间提取器筛选出最具信息量的时序窗口，然后仅在这些窗口上进行细粒度的体素级别特征学习。这样既保留了空间细节，又大大减少了需要处理的数据量。

技术框架：SLIM-Brain的整体框架包含两个主要阶段：(1) 时间提取器：使用轻量级的网络结构（具体结构未知）从完整的fMRI时间序列中提取全局上下文信息，并根据显著性对数据窗口进行排序。(2) 4D分层编码器 (Hiera-JEPA)：仅选择前k个最显著的窗口，并使用分层编码器学习细粒度的体素级别表示。Hiera-JEPA同时采用掩码策略，随机mask掉70%的patch，进一步减少计算量。

关键创新：SLIM-Brain的关键创新在于其自适应的数据选择机制和高效的4D分层编码器。通过时间提取器进行数据筛选，避免了对所有体素和时间点进行计算，显著降低了计算复杂度。Hiera-JEPA的掩码策略进一步提升了训练效率。

关键设计：时间提取器的具体网络结构未知，但强调了其轻量级特性。Hiera-JEPA的具体结构也未知，但强调了其分层特性和4D处理能力。论文中提到了top-k窗口的选择，以及70%的掩码比例，这些都是关键的设计参数。损失函数和优化器的具体选择未知。

🖼️ 关键图片

📊 实验亮点

SLIM-Brain在七个公共基准测试中取得了新的SOTA性能，证明了其有效性。更重要的是，SLIM-Brain仅需要4千个预训练会话，并且与传统的体素级方法相比，仅需约30%的GPU内存。这表明SLIM-Brain在数据和训练效率方面具有显著优势。

🎯 应用场景

SLIM-Brain的潜在应用领域包括脑疾病诊断、认知功能预测、个性化医疗等。通过高效地分析fMRI数据，可以更准确地识别疾病相关的脑活动模式，预测个体认知能力，并为患者提供更精准的治疗方案。该研究有望推动神经科学和医学领域的发展，为改善人类健康做出贡献。

📄 摘要（原文）

Foundation models are emerging as a powerful paradigm for fMRI analysis, but current approaches face a dual bottleneck of data- and training-efficiency. Atlas-based methods aggregate voxel signals into fixed regions of interest, reducing data dimensionality but discarding fine-grained spatial details, and requiring extremely large cohorts to train effectively as general-purpose foundation models. Atlas-free methods, on the other hand, operate directly on voxel-level information - preserving spatial fidelity but are prohibitively memory- and compute-intensive, making large-scale pre-training infeasible. We introduce SLIM-Brain (Sample-efficient, Low-memory fMRI Foundation Model for Human Brain), a new atlas-free foundation model that simultaneously improves both data- and training-efficiency. SLIM-Brain adopts a two-stage adaptive design: (i) a lightweight temporal extractor captures global context across full sequences and ranks data windows by saliency, and (ii) a 4D hierarchical encoder (Hiera-JEPA) learns fine-grained voxel-level representations only from the top-$k$ selected windows, while deleting about 70% masked patches. Extensive experiments across seven public benchmarks show that SLIM-Brain establishes new state-of-the-art performance on diverse tasks, while requiring only 4 thousand pre-training sessions and approximately 30% of GPU memory comparing to traditional voxel-level methods.

SLIM-Brain: A Data- and Training-Efficient Foundation Model for fMRI Data Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理