NeuroAtlas: Benchmarking Foundation Models for Clinical EEG and Brain-Computer Interfaces
作者: Konstantinos Kontras, Trui Osselaer, Stylianos G. Mouslech, Angeliki-Ilektra Karaiskou, Guido Gagliardi, Thomas Strypsteen, Mohammad Hossein Badiei, Anku Rani, Maarten Vanmarcke, Miguel Bhagubai, Chanakya Ekbote, Jaedong Hwang, Christos Chatzichristos, Paul Pu Liang, Maarten De Vos
分类: cs.LG, cs.AI
发布日期: 2026-05-14
💡 一句话要点
NeuroAtlas:临床脑电和脑机接口基础模型的大规模基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图 基础模型 基准测试 临床应用 脑机接口 癫痫 睡眠医学
📋 核心要点
- 现有脑电图(EEG)基础模型评估缺乏统一标准,数据集、预处理和评估指标不一致,难以评估临床实用性。
- NeuroAtlas构建了包含42个数据集和26万小时脑电数据的最大规模基准,并设计了针对临床任务的评估指标。
- 实验表明,脑电特异性模型并未显著优于通用时间序列模型,且标准机器学习指标不足以评估临床效用。
📝 摘要(中文)
基础模型(FMs)有望提取可泛化到下游任务的统一表示。它们已出现在包括脑电图(EEG)在内的各个领域,但它们在这个特定领域的效果尚不清楚。已发表的评估在数据集、可能影响报告结果的脑电特异性预处理以及报告的指标方面存在差异,经常掩盖脑电图的临床相关性。我们推出了NeuroAtlas,迄今为止最大的脑电基准:42个数据集和26万小时,涵盖临床脑电(癫痫、睡眠医学、脑年龄估计)和脑机接口,并包括每个任务的多个数据集以及定制的临床评估指标。除了评估脑电图-FMs与监督基线相比,我们还展示了来自通用时间序列FMs的结果。我们报告了三个发现。首先,脑电图特异性FMs并不总是优于时间序列FMs,后者既没有以脑电图为中心的架构,也没有在脑电图上进行预训练。其次,标准机器学习指标不足以评估临床效用:因此,我们彻底评估了更合适的措施,例如事件级别决策的质量、催眠图导出的特征以及癫痫、睡眠和脑年龄领域的脑年龄差距。第三,模型排名和性能在领域内可能存在很大差异。我们的结论是,预训练模型的性能大致相当,只有少数模型具有狭窄的优势,并且当前模型尚未实现开箱即用的统一脑电图模型的承诺。NeuroAtlas暴露了这一差距,并为下一代统一脑电图FMs提供了数据集和指标。
🔬 方法详解
问题定义:现有脑电图(EEG)基础模型的研究缺乏统一的评估标准。不同的研究使用不同的数据集、预处理方法和评估指标,导致难以比较不同模型的性能,也难以评估模型在临床上的实际应用价值。此外,现有的评估指标可能无法充分反映模型在临床任务中的表现,例如事件级别的决策质量或特定疾病的诊断准确率。
核心思路:为了解决上述问题,论文提出了NeuroAtlas,一个大规模的脑电图基准测试平台。NeuroAtlas的核心思路是通过提供统一的数据集、预处理流程和评估指标,来促进脑电图基础模型的研究和比较。此外,NeuroAtlas还特别关注临床应用,设计了针对不同临床任务的评估指标,以更准确地评估模型的临床实用性。
技术框架:NeuroAtlas主要包含以下几个部分:1) 大规模脑电图数据集:收集了42个数据集,涵盖临床脑电(癫痫、睡眠医学、脑年龄估计)和脑机接口等多个领域,总时长达到26万小时。2) 标准化预处理流程:提供了一套标准化的脑电图预处理流程,包括数据清洗、滤波、降采样等步骤,以减少数据差异对模型性能的影响。3) 多样化的评估指标:除了常用的机器学习指标外,还设计了针对不同临床任务的评估指标,例如事件级别决策的质量、催眠图导出的特征以及脑年龄差距等。4) 基线模型:提供了多个基线模型,包括脑电特异性模型和通用时间序列模型,用于比较不同模型的性能。
关键创新:NeuroAtlas的主要创新点在于:1) 数据集规模:是目前最大的脑电图基准测试平台,包含了丰富的数据和多样化的临床任务。2) 评估指标:设计了针对临床任务的评估指标,更准确地评估模型的临床实用性。3) 基线模型:提供了脑电特异性模型和通用时间序列模型,用于比较不同模型的性能。
关键设计:NeuroAtlas的关键设计包括:1) 数据集选择:选择了涵盖不同临床任务和不同数据来源的数据集,以保证基准测试的代表性。2) 预处理流程:设计了一套标准化的预处理流程,以减少数据差异对模型性能的影响。3) 评估指标:针对不同的临床任务,设计了不同的评估指标,以更准确地评估模型的临床实用性。例如,对于癫痫检测任务,使用了事件级别决策的质量作为评估指标;对于睡眠分期任务,使用了催眠图导出的特征作为评估指标;对于脑年龄估计任务,使用了脑年龄差距作为评估指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,脑电特异性基础模型并未显著优于通用时间序列模型,这表明当前脑电图基础模型仍有很大的提升空间。此外,标准机器学习指标不足以评估临床效用,需要使用更合适的临床指标。模型性能在不同领域内差异较大,表明需要针对特定任务进行模型优化。
🎯 应用场景
NeuroAtlas可用于评估和比较不同的脑电图基础模型,推动脑电图分析算法的进步。其在癫痫诊断、睡眠障碍检测、脑年龄评估和脑机接口等领域具有广泛的应用前景,有助于开发更准确、更可靠的临床辅助诊断工具,并促进脑机接口技术的进一步发展。
📄 摘要(原文)
Foundation models (FMs) promise to extract unified representations that generalize across downstream tasks. They have emerged across fields, including electroencephalography (EEG), but it is less clear how effective they are in this particular field. Published evaluations differ in datasets, in the EEG-specific preprocessing that might influence reported results, and in the reported metrics, frequently obscuring the clinical relevance in EEG. We introduce NeuroAtlas, the largest EEG benchmark to date: 42 datasets and 260k hours covering clinical EEG (epilepsy, sleep medicine, brain age estimation) and brain-computer interfaces, and include multiple datasets per task along with bespoke clinical evaluation metrics. Besides evaluating EEG-FMs with respect to supervised baselines, we present results from generic time-series FMs. We report three findings. First, EEG-specific FMs do not consistently outperform time-series FMs, which have neither EEG-focused architectures nor been pretrained on EEG. Second, standard machine learning metrics are insufficient to assess clinical utility: thus, we thoroughly evaluate more appropriate measures such as the quality of event-level decision-making, hypnogram-derived features, and the brain-age gap in the domains of epilepsy, sleep, and brain age, respectively. Third, model rankings and performance can vary substantially within domains. We conclude that pretrained models perform largely on par, with only narrow advantages for a few, and that current models do not yet deliver on the promise of an out-of-the-box unified EEG model. NeuroAtlas exposes this gap and provides the datasets and metrics for the next generation of unified EEG FMs.