EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training

📄 arXiv: 2512.12210v2 📥 PDF

作者: Yuting Tang, Weibang Jiang, Shanglin Li, Yong Li, Chenyu Liu, Xinliang Zhou, Yi Ding, Cuntai Guan

分类: cs.LG

发布日期: 2025-12-13 (更新: 2026-01-24)

备注: Accepted by AAAI-2026

🔗 代码/项目: GITHUB


💡 一句话要点

EEG-DLite:脑电数据蒸馏框架,高效训练大规模脑电模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑电数据 数据蒸馏 自监督学习 预训练模型 脑机接口

📋 核心要点

  1. 大规模脑电模型训练面临数据量大、质量不一的挑战,导致资源消耗巨大。
  2. EEG-DLite通过自监督学习编码脑电数据,然后进行样本选择,去除噪声和冗余,保留关键信息。
  3. 实验表明,使用EEG-DLite筛选后的5%数据训练,性能可媲美甚至超过完整数据集训练。

📝 摘要(中文)

大规模脑电基础模型在各种下游任务中表现出强大的泛化能力,但由于脑电数据的数量和质量参差不齐,其训练仍然需要大量的资源。本文提出了EEG-DLite,一个数据蒸馏框架,通过选择性地移除大型脑电数据集中的噪声和冗余样本,从而实现更高效的预训练。EEG-DLite首先使用自监督自编码器将脑电片段编码为紧凑的潜在表示,从而能够高效地执行样本选择,并降低对噪声的敏感性。基于这些表示,EEG-DLite过滤掉异常值并最小化冗余,从而产生一个更小但信息丰富的子集,该子集保留了有效基础模型训练所需的多样性。通过大量的实验,证明了在仅使用通过EEG-DLite整理的2500小时数据集的5%进行训练,就能在多个下游任务中获得与在完整数据集上训练相当甚至更好的性能。据我们所知,这是首次在脑电基础模型的背景下对预训练数据蒸馏进行系统研究。EEG-DLite为更有效和高效的生理基础建模提供了一条可扩展且实用的途径。

🔬 方法详解

问题定义:大规模脑电基础模型训练需要消耗大量计算资源,主要原因是脑电数据量巨大且质量参差不齐,包含大量噪声和冗余信息。现有方法难以有效去除这些无用数据,导致训练效率低下。

核心思路:论文的核心思路是通过数据蒸馏,从原始脑电数据集中筛选出一个更小但信息量更丰富的子集,用于预训练。这样既可以减少计算资源的消耗,又能保证模型的性能。核心在于如何有效地识别和去除噪声和冗余样本,同时保留数据的多样性。

技术框架:EEG-DLite框架主要包含以下几个阶段:1) 自编码器编码:使用自监督自编码器将脑电片段编码为紧凑的潜在表示。2) 样本选择:基于潜在表示,过滤掉异常值,并最小化冗余。3) 子集构建:构建一个更小但信息丰富的子集,用于预训练。

关键创新:该方法首次将数据蒸馏技术应用于脑电基础模型的预训练。通过自监督学习得到的潜在表示,能够更有效地进行样本选择,降低噪声的影响,并保留数据的多样性。与传统的随机采样或人工筛选相比,EEG-DLite能够自动地选择更具代表性的样本。

关键设计:自编码器的具体结构(例如,卷积神经网络或Transformer),损失函数(例如,均方误差或对比损失),以及样本选择的策略(例如,基于密度的聚类或基于距离的筛选)是关键的设计细节。论文可能还涉及了如何平衡子集的大小和信息量,以及如何避免过拟合等问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用EEG-DLite筛选后的数据集(仅占原始数据集的5%)进行训练,在多个下游任务中取得了与使用完整数据集训练相当甚至更好的性能。这表明EEG-DLite能够有效地去除噪声和冗余信息,保留关键信息,从而提高训练效率和模型泛化能力。具体的性能提升数据需要在论文中查找。

🎯 应用场景

EEG-DLite可应用于各种脑电相关的研究领域,例如脑机接口、神经疾病诊断、认知状态识别等。通过减少预训练所需的数据量和计算资源,可以加速脑电模型的开发和部署,降低研究成本,并促进脑电技术在实际场景中的应用。该方法还有潜力推广到其他生理信号的处理和分析中。

📄 摘要(原文)

Large-scale EEG foundation models have shown strong generalization across a range of downstream tasks, but their training remains resource-intensive due to the volume and variable quality of EEG data. In this work, we introduce EEG-DLite, a data distillation framework that enables more efficient pre-training by selectively removing noisy and redundant samples from large EEG datasets. EEG-DLite begins by encoding EEG segments into compact latent representations using a self-supervised autoencoder, allowing sample selection to be performed efficiently and with reduced sensitivity to noise. Based on these representations, EEG-DLite filters out outliers and minimizes redundancy, resulting in a smaller yet informative subset that retains the diversity essential for effective foundation model training. Through extensive experiments, we demonstrate that training on only 5 percent of a 2,500-hour dataset curated with EEG-DLite yields performance comparable to, and in some cases better than, training on the full dataset across multiple downstream tasks. To our knowledge, this is the first systematic study of pre-training data distillation in the context of EEG foundation models. EEG-DLite provides a scalable and practical path toward more effective and efficient physiological foundation modeling. The code is available at https://github.com/t170815518/EEG-DLite.