BioSerenity-E1: a self-supervised EEG model for medical applications
作者: Ruggero G. Bettinardi, Mohamed Rahmouni, Ulysse Gimenez
分类: q-bio.QM, cs.LG, eess.SP, q-bio.NC
发布日期: 2025-03-13
💡 一句话要点
BioSerenity-E1:用于医疗应用的自监督脑电模型,实现多个诊断任务的SOTA性能。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图 自监督学习 深度学习 癫痫检测 异常检测 临床应用 频谱分析
📋 核心要点
- 脑电图判读耗时且依赖专家知识,自动化分析系统需求迫切。
- 提出BioSerenity-E1,结合频谱标记化和掩码预测,学习脑电信号的时空依赖关系。
- 在癫痫检测、正常/异常分类和病理分化等任务上达到或超过SOTA性能,尤其在低数据量下提升显著。
📝 摘要(中文)
脑电图(EEG)是神经病学中重要的诊断工具。然而,准确的人工判读非常耗时,需要高度专业化的知识,而这些知识相对稀缺且不易获得。为了解决这些局限性,对脑电数据进行自动预筛选和分析系统的实施具有广阔前景。自监督学习的进步使得在大量未标记的脑电数据上预训练复杂的深度学习架构成为可能,从而学习可泛化的表征,这些表征可以在需要较少下游数据的情况下增强多个任务的性能。本文介绍了BioSerenity-E1,这是用于临床脑电应用的首个自监督基础模型,它结合了频谱标记化和掩码预测,在相关的诊断任务中实现了最先进的性能。该两阶段自监督预训练框架首先通过基于Transformer的VQ-VAE架构获取压缩的脑电表征,该架构旨在重建log-multitaper频谱投影,然后实施广泛的(70%块)掩码token预测,以迫使模型学习脑电信号中复杂的时空依赖关系。BioSerenity-E1在三个临床任务中取得了强大的性能,与最先进的方法持平或高于最先进的方法:癫痫发作检测(AUROC = 0.926,灵敏度 = 0.909),正常/异常分类(在专有数据上AUPRC = 0.970;在TUH-Abnormal上AUPRC = 0.910)以及不平衡数据上的多类病理分化(加权F1 = 0.730)。BioSerenity-E1的效用在低数据量场景中得到进一步证实,当在少于10%的可用数据上进行训练时,AUPRC显示出明显的改善(从+2%到17%)。
🔬 方法详解
问题定义:论文旨在解决脑电图(EEG)判读耗时且依赖专家知识的问题,现有方法难以充分利用大量未标记的脑电数据,导致模型泛化能力受限,尤其是在数据量较少的临床场景下表现不佳。
核心思路:论文的核心思路是利用自监督学习,通过预训练模型学习脑电信号的通用表征,从而减少对下游任务标注数据的依赖。具体而言,通过频谱标记化和掩码预测,迫使模型理解脑电信号的时空依赖关系,提高模型在各种临床任务中的性能。
技术框架:BioSerenity-E1采用两阶段自监督预训练框架。第一阶段,使用基于Transformer的VQ-VAE架构,将脑电信号的log-multitaper频谱投影进行重建,从而学习压缩的脑电表征。第二阶段,对70%的token进行掩码,并预测被掩盖的token,从而迫使模型学习脑电信号中复杂的时空依赖关系。预训练完成后,可以使用少量标注数据对模型进行微调,以适应特定的临床任务。
关键创新:该论文的关键创新在于将频谱标记化与掩码预测相结合,用于脑电信号的自监督学习。频谱标记化能够有效地提取脑电信号的频率信息,而掩码预测则能够迫使模型学习脑电信号的时空依赖关系。此外,该模型是首个面向临床脑电应用的自监督基础模型。
关键设计:VQ-VAE架构用于学习压缩的脑电表征,Transformer用于建模序列依赖关系。掩码比例设置为70%,以迫使模型学习更强的上下文信息。损失函数包括重建损失和掩码预测损失。模型在大量未标记的脑电数据上进行预训练,然后在少量标注数据上进行微调。
🖼️ 关键图片
📊 实验亮点
BioSerenity-E1在三个临床任务中取得了显著成果:癫痫发作检测(AUROC=0.926, 灵敏度=0.909),正常/异常分类(AUPRC=0.970在专有数据上; AUPRC=0.910在TUH-Abnormal上),以及多类病理分化(加权F1=0.730)。在低数据量场景下,使用少于10%的数据训练时,AUPRC提升了2%到17%,证明了自监督预训练的有效性。
🎯 应用场景
该研究成果可应用于多种临床场景,例如癫痫发作的自动检测、脑电图的异常检测以及不同类型脑部疾病的辅助诊断。通过减少对人工判读的依赖,可以提高诊断效率,降低医疗成本,并为患者提供更及时、准确的诊断结果。未来,该模型可以进一步扩展到其他神经生理信号的分析,例如肌电图(EMG)和脑磁图(MEG)。
📄 摘要(原文)
Electroencephalography (EEG) serves as an essential diagnostic tool in neurology; however, its accurate manual interpretation is a time-intensive process that demands highly specialized expertise, which remains relatively scarce and not consistently accessible. To address these limitations, the implementation of automated pre-screening and analysis systems for EEG data holds considerable promise. Advances in self-supervised learning made it possible to pre-train complex deep learning architectures on large volumes of unlabeled EEG data to learn generalizable representations, that can later be used to enhance performance on multiple tasks while needing less downstream data. In the present paper, we introduce BioSerenity-E1, the first of a family of self-supervised foundation models for clinical EEG applications that combines spectral tokenization with masked prediction to achieve state-of-the-art performance across relevant diagnostic tasks. The two-phase self-supervised pretraining framework initially acquires compressed EEG representations via a transformer-based VQ-VAE architecture designed to reconstruct log-multitaper spectral projections, then implements extensive (70% block) masked token prediction to force the model to learn complex spatiotemporal dependencies in EEG signals. BioSerenity-E1 achieves strong performance across three clinical tasks, either in line or above state-of-the-art methods: seizure detection (AUROC = 0.926, Sensitivity = 0.909), normal/abnormal classification (AUPRC = 0.970 on proprietary data; 0.910 on TUH-Abnormal), and multiclass pathology differentiation on unbalanced data (Weighted F1 = 0.730). The utility of BioSerenity-E1 is further confirmed in low-data regimes scenarios, showing clear improvements in AUPRC (from +2% to 17%) when trained on less than 10% of the available data.