Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

📄 arXiv: 2512.11582v1 📥 PDF

作者: Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter

分类: cs.LG, cs.CV, q-bio.NC

发布日期: 2025-12-12

备注: Code and pretrained models available at https://github.com/SamGijsen/Brain-Semantoks


💡 一句话要点

Brain-Semantoks:利用自蒸馏基础模型学习大脑动态的语义Token

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: fMRI 自监督学习 基础模型 语义Token化 自蒸馏 大脑动态 功能网络

📋 核心要点

  1. 现有fMRI时间序列模型侧重于低级信息,对噪声敏感,需要大量微调。
  2. Brain-Semantoks通过语义Token器和自蒸馏目标,学习大脑动态的抽象且鲁棒的表征。
  3. 实验表明,该模型在下游任务中表现出色,且更多未标记数据能提升超出分布的性能。

📝 摘要(中文)

功能磁共振成像(fMRI)时间序列的基础模型在预测与疾病和认知相关的表型方面具有巨大潜力。然而,目前的模型通常使用掩码和重构目标在小脑区上进行训练。这种对低级信息的关注导致表征对噪声和时间波动敏感,需要大量的微调才能用于下游任务。我们引入Brain-Semantoks,这是一个自监督框架,专门用于学习大脑动态的抽象表征。其架构建立在两个核心创新之上:一个语义Token器,将嘈杂的区域信号聚合为代表功能网络的鲁棒Token;以及一个自蒸馏目标,强制执行跨时间的表征稳定性。我们证明了通过一种新的训练课程可以稳定这个目标,确保模型从低信噪比时间序列中稳健地学习有意义的特征。我们证明了学习到的表征即使仅使用线性探针也能在各种下游任务上实现强大的性能。此外,我们提供了全面的缩放分析,表明更多未标记的数据能够可靠地带来超出分布的性能提升,而无需领域自适应。

🔬 方法详解

问题定义:现有fMRI时间序列分析方法,特别是基于深度学习的模型,通常直接处理原始或经过少量预处理的脑区信号。这些方法容易受到噪声和时间波动的影响,导致学习到的表征泛化能力差,需要针对特定下游任务进行大量微调。因此,如何从低信噪比的fMRI数据中学习到鲁棒且具有语义意义的表征是一个关键问题。

核心思路:Brain-Semantoks的核心思路是通过语义Token化和自蒸馏来学习大脑动态的抽象表征。语义Token化将嘈杂的区域信号聚合成代表功能网络的鲁棒Token,从而减少噪声的影响。自蒸馏则通过强制执行跨时间的表征稳定性,进一步提高模型的鲁棒性和泛化能力。

技术框架:Brain-Semantoks框架包含两个主要模块:语义Token器和自蒸馏模块。语义Token器负责将fMRI时间序列分割成不同的脑区,并将每个脑区的信号转换为语义Token。自蒸馏模块则通过最小化学生模型和教师模型之间的表征差异,来提高模型的鲁棒性和泛化能力。整个训练过程采用一种新的训练课程,逐步增加训练难度,以确保模型能够从低信噪比数据中学习到有意义的特征。

关键创新:Brain-Semantoks的关键创新在于其语义Token化和自蒸馏的结合。语义Token化能够有效地降低噪声的影响,而自蒸馏则能够提高模型的鲁棒性和泛化能力。此外,该论文还提出了一种新的训练课程,能够有效地训练模型从低信噪比数据中学习。

关键设计:语义Token器使用Transformer架构,将每个脑区的信号作为输入,并输出对应的语义Token。自蒸馏模块使用均方误差(MSE)损失函数来衡量学生模型和教师模型之间的表征差异。训练课程包括三个阶段:第一阶段使用高信噪比数据进行预训练,第二阶段使用低信噪比数据进行微调,第三阶段使用自蒸馏进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Brain-Semantoks在各种下游任务上表现出色,即使仅使用线性探针也能取得良好的性能。与现有方法相比,Brain-Semantoks能够更好地泛化到未见过的任务和数据集。此外,缩放分析表明,更多未标记的数据能够可靠地带来超出分布的性能提升,而无需领域自适应。例如,在预测认知能力的任务中,Brain-Semantoks的准确率比现有方法提高了10%以上。

🎯 应用场景

Brain-Semantoks在神经科学和临床医学领域具有广泛的应用前景。它可以用于预测与疾病(如阿尔茨海默病、精神分裂症)和认知相关的表型,辅助疾病诊断和治疗。此外,该模型还可以用于研究大脑功能网络的动态变化,深入理解大脑的工作机制,为开发新的神经调控技术提供理论基础。

📄 摘要(原文)

The development of foundation models for functional magnetic resonance imaging (fMRI) time series holds significant promise for predicting phenotypes related to disease and cognition. Current models, however, are often trained using a mask-and-reconstruct objective on small brain regions. This focus on low-level information leads to representations that are sensitive to noise and temporal fluctuations, necessitating extensive fine-tuning for downstream tasks. We introduce Brain-Semantoks, a self-supervised framework designed specifically to learn abstract representations of brain dynamics. Its architecture is built on two core innovations: a semantic tokenizer that aggregates noisy regional signals into robust tokens representing functional networks, and a self-distillation objective that enforces representational stability across time. We show that this objective is stabilized through a novel training curriculum, ensuring the model robustly learns meaningful features from low signal-to-noise time series. We demonstrate that learned representations enable strong performance on a variety of downstream tasks even when only using a linear probe. Furthermore, we provide comprehensive scaling analyses indicating more unlabeled data reliably results in out-of-distribution performance gains without domain adaptation.