EEG-Bench: A Benchmark for EEG Foundation Models in Clinical Applications

作者: Ard Kastrati, Josua Bürki, Jonas Lauer, Cheng Xuan, Raffaele Iaquinto, Roger Wattenhofer

分类: cs.LG, cs.AI

发布日期: 2025-11-28

备注: Foundation Models for the Brain and Body (BrainBodyFM@NeurIPS)

💡 一句话要点

EEG-Bench：用于评估脑电图临床应用基础模型的统一基准测试框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 脑电图 基准测试 临床应用 基础模型 癫痫 帕金森病

📋 核心要点

现有脑电图分析缺乏统一的评估标准，难以公平比较不同模型在临床诊断任务中的性能。
构建包含多种临床任务和数据集的基准测试，采用标准化的评估流程，实现模型性能的客观比较。
实验表明，基础模型在特定场景表现优异，但简单模型在临床分布偏移下仍具竞争力，代码数据已开源。

📝 摘要（中文）

本文提出了一个统一的基准测试框架，专注于评估基于脑电图（EEG）的基础模型在临床应用中的表现。该基准涵盖了11个明确定义的诊断任务，涉及14个公开可用的脑电图数据集，包括癫痫、精神分裂症、帕金森病、强迫症和轻度创伤性脑损伤。该框架采用最小化的预处理、标准化的评估协议，并支持经典基线模型和现代基础模型的并排比较。实验结果表明，虽然基础模型在某些设置下表现出色，但更简单的模型通常仍然具有竞争力，尤其是在临床分布偏移的情况下。为了方便重现和采用，所有准备好的数据和代码都以可访问和可扩展的格式发布。

🔬 方法详解

问题定义：脑电图（EEG）在临床诊断中具有重要作用，但现有方法缺乏统一的评估标准，难以比较不同模型在各种临床任务上的性能。尤其是在临床数据存在分布偏移的情况下，模型的泛化能力面临挑战。现有的研究往往针对特定任务和数据集，缺乏通用性和可比性。

核心思路：本文的核心思路是构建一个全面的基准测试框架，涵盖多个临床诊断任务和公开可用的脑电图数据集，采用标准化的评估协议，以便公平地比较不同模型（包括经典模型和现代基础模型）的性能。通过统一的评估流程，可以更客观地了解各种模型在不同临床场景下的优缺点。

技术框架：EEG-Bench框架包含以下主要组成部分：1) 14个公开可用的脑电图数据集，涵盖癫痫、精神分裂症、帕金森病、强迫症和轻度创伤性脑损伤等多种疾病；2) 11个明确定义的诊断任务，例如疾病分类、阶段识别等；3) 最小化的预处理流程，以减少数据处理对结果的影响；4) 标准化的评估协议，包括统一的指标和交叉验证方法；5) 可扩展的代码库，方便用户添加新的模型和数据集。

关键创新：该基准测试框架的关键创新在于其全面性和标准化。它首次将多个临床相关的脑电图数据集和诊断任务整合到一个统一的评估平台中，并采用标准化的评估协议，从而实现了不同模型之间的公平比较。此外，该框架还提供了可扩展的代码库，方便研究人员进行进一步的探索和改进。

关键设计：为了保证评估的公平性和可比性，该框架采用了最小化的预处理流程，避免过度处理对结果产生影响。评估指标包括准确率、精确率、召回率和F1分数等，并采用交叉验证方法来评估模型的泛化能力。代码库采用模块化设计，方便用户添加新的模型和数据集，并支持不同的深度学习框架。

🖼️ 关键图片

📊 实验亮点

实验结果表明，虽然基础模型在某些临床任务上表现出色，但在临床分布偏移的情况下，简单的传统模型仍然具有竞争力。例如，在某些癫痫诊断任务中，基础模型取得了较高的准确率，但在帕金森病诊断任务中，线性判别分析（LDA）等简单模型表现更好。这些结果表明，在选择脑电图分析模型时，需要综合考虑任务的特点和数据的分布情况。

🎯 应用场景

该研究成果可广泛应用于脑电图分析和临床诊断领域。通过EEG-Bench，研究人员可以更方便地评估和比较不同脑电图分析模型的性能，从而推动相关技术的发展。临床医生可以利用该基准测试的结果，选择最适合特定诊断任务的模型，提高诊断的准确性和效率。未来，该基准测试还可以扩展到其他神经信号，例如脑磁图（MEG）和颅内脑电图（iEEG），为更广泛的神经疾病诊断提供支持。

📄 摘要（原文）

We introduce a unified benchmarking framework focused on evaluating EEG-based foundation models in clinical applications. The benchmark spans 11 well-defined diagnostic tasks across 14 publicly available EEG datasets, including epilepsy, schizophrenia, Parkinson's disease, OCD, and mild traumatic brain injury. It features minimal preprocessing, standardized evaluation protocols, and enables side-by-side comparisons of classical baselines and modern foundation models. Our results show that while foundation models achieve strong performance in certain settings, simpler models often remain competitive, particularly under clinical distribution shifts. To facilitate reproducibility and adoption, we release all prepared data and code in an accessible and extensible format.

EEG-Bench: A Benchmark for EEG Foundation Models in Clinical Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理