A Multi-dimensional Framework for Evaluating Generalization in EEG Foundation Models
作者: Aditya Kommineni, Emily Zhou, Kleanthis Avramidis, Tiantian Feng, Shrikanth Narayanan
分类: cs.LG, cs.AI
发布日期: 2026-05-27
备注: 24 pages, 5 Figures
💡 一句话要点
提出脑电图(EEG)通用模型的多维度评估框架,关注低资源场景下的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图 通用模型 多维度评估 低资源学习 泛化能力
📋 核心要点
- 现有EEG通用模型评估方法未充分考虑生物医学领域的低资源约束,如数据量少、通道受限等。
- 论文提出多维度评估框架,从数据量、任务类型、通道数量等多方面评估模型泛化能力。
- 实验表明,通用模型在长时程任务表现优异,但在短时程任务和通道受限场景下表现不佳。
📝 摘要(中文)
为了评估脑电图(EEG)通用模型学习表征的质量和可迁移性,本文提出了一种多维度评估框架,用于在实际的低资源条件下评估EEG模型。现有的EEG通用模型通常在充分微调和精心策划的下游数据集上进行评估,但这不能反映生物医学领域的约束,如有限的标记数据、减少的传感器覆盖或参数高效的适应。该框架对包括LaBraM、CSBrain和CBraMod在内的监督EEG模型和最新的EEG通用模型,在6个不同的数据集上进行了实证分析。结果表明,EEG通用模型在长上下文任务(如睡眠阶段预测和精神健康状态分类)中始终提供性能增益。相反,对于短窗口脑机接口风格的任务,监督模型在参数明显较少的情况下实现了相当的性能。其他分析表明,当前的通用模型对短窗口任务和通道约束设置的鲁棒性有限。这些发现促使人们使用多维度评估协议来表征模型在实际使用约束下的行为。
🔬 方法详解
问题定义:现有脑电图(EEG)通用模型评估主要依赖于在大型、高质量数据集上进行全参数微调,忽略了实际应用中常见的低资源场景,例如标记数据稀缺、传感器通道数量受限等。这种评估方式无法真实反映模型在实际应用中的泛化能力,阻碍了其在生物医学领域的有效应用。
核心思路:论文的核心在于构建一个更贴近实际应用场景的多维度评估框架。该框架通过模拟不同的低资源条件,例如限制训练数据量、减少使用的脑电通道数量,以及选择不同类型的下游任务,来全面评估EEG通用模型在各种约束下的性能表现。
技术框架:该框架主要包含以下几个关键组成部分:1) 多样化的数据集选择:涵盖不同类型的脑电数据,例如睡眠脑电、运动想象脑电等。2) 低资源条件模拟:通过减少训练样本数量、限制使用的脑电通道数量等方式,模拟实际应用中的数据约束。3) 多种评估指标:采用准确率、F1-score等指标,评估模型在不同条件下的性能表现。4) 基线模型对比:与传统的监督学习模型进行对比,评估通用模型的优势和不足。
关键创新:该框架的创新之处在于其多维度和贴近实际的评估方式。它不再局限于传统的全参数微调评估,而是通过模拟各种低资源条件,更全面地评估EEG通用模型的泛化能力和鲁棒性。这种评估方式能够更准确地反映模型在实际应用中的性能表现,为模型的选择和优化提供更可靠的依据。
关键设计:在实验设计方面,论文选取了6个不同的脑电数据集,涵盖了睡眠阶段预测、精神健康状态分类和脑机接口等多种任务。同时,论文还对训练数据量和脑电通道数量进行了不同程度的限制,以模拟不同的低资源条件。在模型选择方面,论文选择了LaBraM、CSBrain和CBraMod等最新的EEG通用模型,并与传统的监督学习模型进行了对比。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EEG通用模型在长上下文任务(如睡眠阶段预测和精神健康状态分类)中表现出优于传统监督模型的性能。然而,在短窗口脑机接口任务和通道受限的场景下,通用模型的优势并不明显,甚至不如参数量更小的监督模型。这表明,当前的EEG通用模型在鲁棒性和泛化能力方面仍有提升空间。
🎯 应用场景
该研究成果可应用于脑电信号分析相关的多个领域,例如:辅助诊断精神疾病、提升脑机接口系统的鲁棒性、优化睡眠监测设备等。通过更准确地评估和选择合适的脑电模型,可以提高相关应用的性能和可靠性,最终改善患者的生活质量。
📄 摘要(原文)
Evaluating foundation models under appropriate adaptation settings is essential for understanding the quality and transferability of the learned representations. Recent EEG foundation models have demonstrated promising transfer capabilities across tasks and datasets, motivating their growing use in neurotechnology and clinical applications. However, these models are typically evaluated under full fine-tuning on well-curated downstream datasets, a setting that does not reflect biomedical domain constraints such as limited labeled data, reduced sensor coverage, or parameter-efficient adaptation. In this work, we propose a multi-dimensional evaluation framework for assessing EEG models under realistic low-resource conditions. Empirical analysis of both supervised EEG models and recent EEG foundation models, including LaBraM, CSBrain, and CBraMod, across 6 different datasets is performed under the proposed multi-dimensional evaluation framework. We find that EEG foundation models consistently provide performance gains on long-context tasks such as sleep stage prediction and mental health state classification. In contrast, for short-window Brain Computer Interface style tasks, supervised models achieve comparable despite having substantially fewer parameters. Additional analyses demonstrate that current foundation models provide limited robustness to short-window tasks and channel constrained settings. Together, these findings motivate the use of multi-dimensional evaluation protocols that characterize model behavior under realistic use constraints.