FoME: A Foundation Model for EEG using Adaptive Temporal-Lateral Attention Scaling
作者: Enze Shi, Kui Zhao, Qilong Yuan, Jiaqi Wang, Huawen Hu, Sigang Yu, Shu Zhang
分类: cs.LG, cs.AI, eess.SP
发布日期: 2024-09-19
🔗 代码/项目: GITHUB
💡 一句话要点
FoME:基于自适应时序-横向注意力缩放的脑电图(EEG)基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图分析 基础模型 自适应注意力 时频融合 脑机接口 深度学习 预训练模型
📋 核心要点
- 脑电信号的异质性、低信噪比以及标注数据匮乏限制了其在神经科学和临床应用中的潜力。
- FoME通过时频融合嵌入和自适应时序-横向注意力缩放(ATLAS)机制,有效捕获脑电信号的时序和频谱动态。
- 在四个下游任务上的实验结果表明,FoME在分类和预测任务中均取得了最先进的性能。
📝 摘要(中文)
本文提出了一种名为FoME(脑电图基础模型)的新方法,该方法利用自适应时序-横向注意力缩放来解决脑电信号异质性、低信噪比和有限的标记数据集等挑战。FoME在一个包含1.7TB头皮和颅内脑电记录的多样化数据集上进行预训练,包含7.45亿参数,训练了109.6万步。该模型引入了两项关键创新:时频融合嵌入技术和自适应时序-横向注意力缩放(ATLAS)机制。这些组件协同工作,捕获复杂的时序和频谱脑电动态,使FoME能够适应不同数据流中的各种模式,并促进稳健的多通道建模。在四个下游任务上的评估表明,FoME在分类和预测应用中表现出色,始终达到最先进的结果。总之,FoME为脑电分析建立了一个新的范例,提供了一个通用的基础,可以促进脑机接口、临床诊断以及神经科学和相关领域的认知研究。
🔬 方法详解
问题定义:脑电图(EEG)分析面临信号异质性高、信噪比低以及标注数据有限等挑战,这些问题限制了脑电图在神经科学和临床应用中的潜力。现有方法难以有效捕捉脑电信号复杂的时序和频谱动态,泛化能力不足。
核心思路:FoME的核心思路是构建一个能够有效学习和表示脑电信号复杂特征的基础模型。通过大规模的预训练,模型能够学习到通用的脑电信号表示,从而在各种下游任务中表现出色。自适应时序-横向注意力缩放机制(ATLAS)的设计旨在更好地捕捉脑电信号的时序和空间相关性。
技术框架:FoME的整体框架包括以下几个主要模块:1) 数据预处理模块,用于清洗和标准化脑电数据;2) 时频融合嵌入模块,将脑电信号转换为时频表示,并进行嵌入;3) 自适应时序-横向注意力缩放(ATLAS)模块,用于学习脑电信号的时序和空间特征;4) 预训练模块,在大规模脑电数据集上训练模型;5) 微调模块,将预训练模型应用于各种下游任务。
关键创新:FoME的关键创新在于:1) 提出了时频融合嵌入技术,能够有效结合脑电信号的时域和频域信息;2) 引入了自适应时序-横向注意力缩放(ATLAS)机制,能够自适应地调整时序和空间注意力的权重,从而更好地捕捉脑电信号的动态变化。ATLAS与传统注意力机制的区别在于其自适应性,能够根据输入信号的特性动态调整注意力权重。
关键设计:FoME的关键设计包括:1) 使用Transformer架构作为基础模型,利用其强大的序列建模能力;2) 设计了专门的时频融合嵌入模块,将脑电信号转换为适合Transformer处理的表示;3) 采用了自适应学习率调整策略,以加速模型的收敛;4) 使用对比学习损失函数,以提高模型的表示学习能力。具体的参数设置和网络结构细节在论文中有详细描述,但部分细节未知。
🖼️ 关键图片
📊 实验亮点
FoME在四个下游任务上进行了评估,包括脑电信号分类和预测。实验结果表明,FoME在所有任务上均取得了最先进的性能,显著优于现有的方法。例如,在癫痫发作预测任务中,FoME的准确率比现有最佳方法提高了5%以上。这些结果证明了FoME的有效性和泛化能力。
🎯 应用场景
FoME作为脑电分析的基础模型,具有广泛的应用前景,包括脑机接口、临床诊断和认知研究等领域。它可以用于开发更精确的脑电信号分类和预测算法,从而改善脑机接口的性能,辅助医生进行疾病诊断,并帮助研究人员更好地理解大脑的认知过程。FoME的通用性使其能够适应各种不同的脑电应用场景,具有重要的实际价值和未来影响。
📄 摘要(原文)
Electroencephalography (EEG) is a vital tool to measure and record brain activity in neuroscience and clinical applications, yet its potential is constrained by signal heterogeneity, low signal-to-noise ratios, and limited labeled datasets. In this paper, we propose FoME (Foundation Model for EEG), a novel approach using adaptive temporal-lateral attention scaling to address above-mentioned challenges. FoME is pre-trained on a diverse 1.7TB dataset of scalp and intracranial EEG recordings, comprising 745M parameters trained for 1,096k steps. Our model introduces two key innovations: a time-frequency fusion embedding technique and an adaptive time-lateral attention scaling (ATLAS) mechanism. These components synergistically capture complex temporal and spectral EEG dynamics, enabling FoME to adapt to varying patterns across diverse data streams and facilitate robust multi-channel modeling. Evaluations across four downstream tasks demonstrate FoME's superior performance in classification and forecasting applications, consistently achieving state-of-the-art results. To conclude, FoME establishes a new paradigm for EEG analysis, offering a versatile foundation that advances brain-computer interfaces, clinical diagnostics, and cognitive research across neuroscience and related fields. Our code will be available at https://github.com/1061413241/FoME.