EEG-FM-Audit: A Systematic Evaluation and Analysis Pipeline for EEG Foundation Models

📄 arXiv: 2605.26910v1 📥 PDF

作者: Xianheng Wang, Yige Yang, Damien Coyle

分类: cs.LG, cs.AI

发布日期: 2026-05-26

备注: 26 pages


💡 一句话要点

提出EEG-FM-Audit以解决EEG基础模型评估透明性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: EEG基础模型 模型评估 神经生理探测 学习范式 透明性 可解释性 脑机接口 认知神经科学

📋 核心要点

  1. 现有EEG基础模型的评估方法存在监督基线调优不透明、学习范式贡献未验证及决策过程缺乏透明性等问题。
  2. 本文提出EEG-FM-Audit,通过ASHA驱动的基准协议、范式级消融研究和神经生理探测框架,系统化评估EEG基础模型。
  3. 实验结果表明,合理调优的监督基线可以匹配或超越复杂的EEG基础模型,且学习范式的有效性受数据集规模和架构影响显著。

📝 摘要(中文)

大型EEG基础模型在解码EEG信号方面展现了巨大潜力,但现有研究存在三个主要局限:监督基线调优不透明、复杂学习范式贡献未经验证以及模型决策缺乏透明性。为此,本文提出EEG-FM-Audit,一个全面的评估和分析管道,旨在系统化EEG-FM的评估。该管道包括三个主要组件:基于ASHA的基准协议、范式级消融研究以及神经生理探测框架。我们将EEG-FM-Audit应用于四个最先进的EEG-FM和五个代表性的监督模型,结果显示,经过合理调优的监督基线能够匹配或超越先进的EEG-FM,且参数显著更少。此外,学习范式的有效性高度依赖于数据集规模和架构,NPP分析则揭示了EEG-FM对特定生理特征的依赖,建立了更具可解释性的神经解码框架。

🔬 方法详解

问题定义:现有EEG基础模型评估方法存在透明性不足的问题,尤其是在监督基线调优和学习范式的贡献方面,导致模型决策过程不明确。

核心思路:EEG-FM-Audit通过引入ASHA驱动的基准协议和神经生理探测框架,旨在系统化和透明化EEG基础模型的评估过程,以提高模型的可解释性和可靠性。

技术框架:EEG-FM-Audit包括三个主要模块:1) ASHA驱动的基准协议,确保公平比较;2) 范式级消融研究,评估学习范式的有效性;3) 神经生理探测框架,分析模型对EEG信号特征的利用。

关键创新:该研究的创新点在于提出了一个综合的评估管道,解决了现有方法在透明性和可解释性方面的不足,使得模型的评估更加系统化和科学化。

关键设计:在ASHA驱动的基准协议中,采用了透明的优化流程;消融研究通过不同学习范式的对比来评估其有效性;NPP框架则通过分析EEG信号的时间、空间和频谱特性,揭示模型的决策依据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过合理调优的监督基线模型在性能上能够与复杂的EEG基础模型相匹配或超越,且所需参数显著减少。此外,学习范式的有效性受到数据集规模和模型架构的显著影响,进一步验证了模型设计的重要性。

🎯 应用场景

EEG-FM-Audit的潜在应用领域包括脑机接口、认知神经科学研究和临床神经生理学等。通过提高EEG基础模型的评估透明性和可解释性,该研究能够为相关领域提供更可靠的工具,推动脑电信号解码技术的发展。

📄 摘要(原文)

Large EEG Foundation Models (FMs) have shown great potential for decoding EEG signals across diverse cognitive tasks. However, existing EEG-FM studies exhibit three critical limitations: opaque supervised baseline tuning, unverified contributions of complex learning paradigms, and a lack of transparency in model decision-making. To address these, we propose EEG-FM-Audit, a comprehensive evaluation and analysis pipeline designed to systematize the assessment of EEG-FMs. EEG-FM-Audit consists of three primary components: (1) an ASHA-driven benchmarking protocol that ensures fair comparisons by transparently optimizing supervised baselines; (2) paradigm-level ablation studies to evaluate the effectiveness of learning paradigms in FMs; and (3) a neurophysiological probing (NPP) framework, which explores whether FMs leverage valid temporal, spatial, and spectral EEG properties. We apply EEG-FM-Audit to four state-of-the-art EEG-FMs and five representative supervised models across three public datasets. Our results reveal that properly tuned supervised baselines can match or outperform advanced FMs, despite requiring significantly fewer parameters. Furthermore, we find that the effectiveness of learning paradigms of FMs is highly dependent on dataset scale and architecture. Finally, NPP analysis demonstrates how FMs rely on specific physiological features, establishing a framework for more interpretable neural decoding.