DLink: Distilling Layer-wise and Dominant Knowledge from EEG Foundation Models

作者: Jingyuan Wang, Meiyan Xu, Zhihao Jia, Chenyu Liu, Xinliang Zhou, Ziyu Jia, Yong Li, Fang Li, Junfeng Yao, Yi Ding

分类: cs.LG

发布日期: 2026-04-16

💡 一句话要点

DLink：从脑电图基础模型中蒸馏分层和主导知识，实现轻量化部署。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 脑电图 基础模型 知识蒸馏 模型压缩 脑机接口

📋 核心要点

脑电图基础模型计算和内存成本高，难以在嵌入式脑机接口系统上部署。
DLink通过动态路由聚合教师层，并设计Mimic-then-Compress学生模型，实现知识高效迁移。
实验表明，DLink使学生模型在显著降低模型大小和推理成本的同时，性能接近完全微调的基础模型。

📝 摘要（中文）

脑电图基础模型(FMs)在跨被试和跨任务泛化方面表现出色，但计算和内存成本高昂，阻碍了其在嵌入式脑机接口(BCI)系统上的部署。知识蒸馏是一种自然的解决方案；然而，传统方法对脑电图FMs无效，因为任务相关的语义通常分布在中间层，并且激进的降维会导致表征崩溃和混叠，从而扭曲振荡结构。为了解决这些挑战，我们提出了DLink（Distilling Layer-wise and Dominant Knowledge），一个统一的框架，用于将知识从大型脑电图FMs转移到紧凑的学生模型，具有三个关键创新：(1)一个动态路由器，自适应地聚合教师层以捕获主导的中间表示；(2)一个具有Mimic-then-Compress流水线的脑电图MiC学生模型，它继承高维教师特征，然后应用结构化的时空压缩，以避免繁重的分类头；(3)频谱蒸馏，在频域中对齐师生表示，以规范压缩并减轻混叠和时间抖动。在四个脑电图基准上的实验表明，DLink使紧凑的学生模型能够优于轻量级基线，同时以大大降低的模型大小和推理成本接近完全微调的FM性能。

🔬 方法详解

问题定义：脑电图基础模型虽然具有强大的泛化能力，但其庞大的模型体积和计算复杂度限制了其在资源受限的嵌入式脑机接口系统上的应用。传统的知识蒸馏方法在脑电图基础模型上表现不佳，因为任务相关的语义信息分散在不同的中间层，并且过度的降维操作容易导致表征崩溃和混叠现象，从而影响模型的性能。

核心思路：DLink的核心思路是通过选择性地聚合教师模型中不同层的知识，并采用一种模仿-压缩(Mimic-then-Compress)的策略来构建轻量级的学生模型。这种方法旨在保留教师模型中重要的任务相关信息，同时避免过度降维带来的信息损失和伪影。

技术框架：DLink框架主要包含三个核心模块：动态路由器(Dynamic Router)、脑电图MiC学生模型(EEG MiC student)和频谱蒸馏(Spectral Distillation)。动态路由器负责自适应地选择教师模型中重要的中间层特征进行聚合；脑电图MiC学生模型首先模仿教师模型的高维特征，然后进行结构化的时空压缩；频谱蒸馏则在频域上对齐师生模型的表示，以规范压缩过程并减轻混叠和时间抖动。

关键创新：DLink的关键创新在于其动态路由机制和Mimic-then-Compress策略。动态路由能够根据输入数据的特点，自适应地选择教师模型中相关的中间层特征，从而更有效地传递知识。Mimic-then-Compress策略则避免了直接将高维特征压缩到低维空间，而是先让学生模型学习教师模型的高维特征，然后再进行压缩，从而更好地保留了重要的信息。

关键设计：动态路由器使用注意力机制来学习不同教师层的重要性权重，并根据这些权重对教师层的特征进行加权平均。脑电图MiC学生模型采用了一种结构化的时空压缩方法，例如使用深度可分离卷积来降低模型的参数量和计算复杂度。频谱蒸馏则通过最小化师生模型在频域上的差异来实现，例如使用频谱损失函数来约束学生模型的学习。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DLink在四个脑电图基准数据集上均取得了显著的性能提升。例如，在某个数据集上，DLink使学生模型在模型大小降低90%的情况下，性能仅下降了不到2%，并且优于其他轻量级基线模型。DLink还能够有效地减轻混叠和时间抖动，从而提高了模型的鲁棒性和泛化能力。

🎯 应用场景

DLink技术可应用于各种嵌入式脑机接口系统，例如可穿戴的脑电监测设备、智能康复机器人等。通过将大型脑电图基础模型压缩成轻量级的学生模型，可以在资源受限的设备上实现高性能的脑电信号处理和分析，从而为用户提供更便捷、更智能的脑机接口服务。该技术还有潜力应用于医疗诊断、神经反馈训练、游戏控制等领域。

📄 摘要（原文）

EEG foundation models (FMs) achieve strong cross-subject and cross-task generalization but impose substantial computational and memory costs that hinder deployment on embedded BCI systems. Knowledge distillation is a natural solution; however, conventional methods fail for EEG FMs because task-relevant semantics are often distributed across intermediate layers, and aggressive dimensionality reduction can distort oscillatory structure via representational collapse and aliasing. To address these challenges, we propose DLink (Distilling Layer-wise and Dominant Knowledge), a unified framework for transferring knowledge from large EEG FMs to compact students with three key innovations: (1) a dynamic Router that adaptively aggregates teacher layers to capture dominant intermediate representations; (2) an EEG MiC student with a Mimic-then-Compress pipeline, which inherits high-dimensional teacher features and then applies structured spatio-temporal compression to avoid a heavy classification head; and (3) spectral distillation that aligns teacher-student representations in the frequency domain to regularize compression and mitigate aliasing and temporal jitter. Experiments on four EEG benchmarks show that DLink enables compact students to outperform lightweight baselines while approaching fully fine-tuned FM performance at substantially lower model size and inference cost.

DLink: Distilling Layer-wise and Dominant Knowledge from EEG Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理