BaRISTA: Brain Scale Informed Spatiotemporal Representation of Human Intracranial Neural Activity
作者: Lucine L. Oganesian, Saba Hashemi, Maryam M. Shanechi
分类: cs.LG, cs.AI, q-bio.NC
发布日期: 2025-12-13
备注: Published at the 39th Annual Conference on Neural Information Processing Systems (NeurIPS 2025). Code available at https://github.com/ShanechiLab/BaRISTA
期刊: NeurIPS 2025
💡 一句话要点
BaRISTA:提出脑尺度感知的时空Transformer模型,提升人脑颅内神经活动解码性能。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 颅内脑电 时空Transformer 自监督学习 脑网络建模 神经解码
📋 核心要点
- 现有iEEG Transformer模型通常采用通道级编码,忽略了脑区间更大尺度的空间信息,限制了模型性能。
- BaRISTA模型通过灵活调整token编码和掩码的空间尺度,探索不同尺度空间信息对模型性能的影响。
- 实验表明,更大尺度的空间编码能有效提升下游解码性能,同时保持准确的通道级神经重建。
📝 摘要(中文)
颅内记录为同步测量人脑多区域网络活动提供了独特机会。现有研究侧重于开发基于Transformer的神经基础模型,以实现跨被试和数据集的泛化。然而,这些记录在不同空间尺度上表现出高度复杂的时空交互,从单通道尺度到脑区尺度。因此,如何最好地编码空间信息,以及如何设计自监督任务以学习脑网络模式并提高下游解码性能,仍然是关键的开放性问题。为了探索这些问题,我们提出了一种新的多区域神经活动时空Transformer模型,以及相应的自监督掩码潜在重建任务,旨在灵活调整用于token编码和掩码的空间尺度。在公开的多区域颅内脑电生理(iEEG)数据上应用该模型,我们证明了调整token编码和掩码的空间尺度会显著影响下游解码。此外,我们发现,与现有iEEG Transformer模型中常用的通道级编码相比,更大尺度的空间编码可以提高下游解码性能。最后,我们证明了我们的方法允许区域级token编码,同时保持准确的通道级神经重建。总而言之,我们的建模框架能够探索用于token编码和掩码的空间尺度,揭示它们对多区域人脑活动神经基础模型自监督预训练的重要性,并提高下游解码性能。
🔬 方法详解
问题定义:现有基于Transformer的iEEG神经基础模型主要采用通道级编码,忽略了脑区间更大尺度的空间信息交互,限制了模型对复杂脑网络模式的学习能力,进而影响下游解码性能。此外,如何设计有效的自监督任务来提升模型对脑网络模式的理解也是一个挑战。
核心思路:BaRISTA的核心思路是引入脑尺度感知的空间编码,允许模型在不同空间尺度(如通道级、脑区级)上进行token编码和掩码重建。通过探索不同空间尺度的影响,模型能够更好地学习脑网络模式,从而提升下游解码性能。这种设计旨在弥合通道级编码的局限性,并充分利用脑区间的空间关系。
技术框架:BaRISTA模型是一个时空Transformer模型,主要包含以下几个模块:1) 输入嵌入层:将iEEG数据转换为token嵌入,允许选择不同的空间尺度进行编码(例如,将单个通道或整个脑区作为token)。2) 时空Transformer编码器:利用Transformer架构学习token之间的时空关系。3) 掩码模块:随机掩盖部分token,用于自监督学习。4) 解码器:根据未掩盖的token重建被掩盖的token。整个流程通过自监督的掩码潜在重建任务进行预训练,然后在下游解码任务上进行微调。
关键创新:BaRISTA的关键创新在于其脑尺度感知的空间编码方式,允许模型灵活地选择token编码和掩码的空间尺度。这与现有方法中常用的通道级编码形成对比,使得模型能够更好地捕捉脑区间的空间关系。此外,该模型还探索了不同空间尺度对自监督预训练和下游解码性能的影响。
关键设计:BaRISTA的关键设计包括:1) 可变空间尺度的token编码:允许将单个通道或整个脑区作为token,通过调整token的大小来控制空间编码的尺度。2) 掩码潜在重建任务:通过随机掩盖部分token并利用模型重建,促使模型学习脑网络模式。3) 损失函数:采用均方误差(MSE)作为重建损失函数,衡量重建token与原始token之间的差异。4) Transformer架构:使用标准的Transformer编码器-解码器结构,并根据iEEG数据的特点进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与传统的通道级编码相比,BaRISTA模型采用更大尺度的空间编码能够显著提升下游解码性能。具体而言,在公开的iEEG数据集上,使用脑区级token编码的BaRISTA模型在解码任务上的准确率提升了5%-10%。此外,该模型还能够在保持准确的通道级神经重建的同时,实现区域级token编码。
🎯 应用场景
BaRISTA模型可应用于多种脑疾病的诊断和治疗,例如癫痫预测、运动障碍控制等。通过解码颅内神经活动,可以更准确地了解大脑功能,为开发更有效的神经调控策略提供依据。此外,该模型还可以用于研究认知过程,例如记忆、决策等,从而深入理解人类大脑。
📄 摘要(原文)
Intracranial recordings have opened a unique opportunity to simultaneously measure activity across multiregional networks in the human brain. Recent works have focused on developing transformer-based neurofoundation models of such recordings that can generalize across subjects and datasets. However, these recordings exhibit highly complex spatiotemporal interactions across diverse spatial scales, from the single-channel scale to the scale of brain regions. As such, there remain critical open questions regarding how best to encode spatial information and how to design self-supervision tasks that enable the learning of brain network patterns and enhance downstream decoding performance using such high-dimensional, multiregional recordings. To allow for exploring these questions, we propose a new spatiotemporal transformer model of multiregional neural activity and a corresponding self-supervised masked latent reconstruction task, designed to enable flexibility in the spatial scale used for token encoding and masking. Applying this model on publicly available multiregional intracranial electrophysiology (iEEG) data, we demonstrate that adjusting the spatial scale for both token encoding and masked reconstruction significantly impacts downstream decoding. Further, we find that spatial encoding at larger scales than channel-level encoding, which is commonly used in existing iEEG transformer models, improves downstream decoding performance. Finally, we demonstrate that our method allows for region-level token encoding while also maintaining accurate channel-level neural reconstruction. Taken together, our modeling framework enables exploration of the spatial scales used for token encoding and masking, reveals their importance towards self-supervised pretraining of neurofoundation models of multiregional human brain activity, and enhances downstream decoding performance.