A Multimodal Pre-trained Network for Integrated EEG-Video Seizure Detection
作者: Tong Lu, Ke Xu, Zimo Zhang, Zitong Zhao, Danwei Weng, Ruiyu Wang, Miao Liu, Zizuo Zhang, Jingyi Yao, Yixuan Zhao, Wenchao Zhang, Min Wang, Guoming Luan, Minmin Luo, Zhifeng Yue
分类: cs.CV
发布日期: 2026-04-29
💡 一句话要点
提出EEGVFusion,用于整合脑电和视频信息以提升小鼠癫痫检测的可靠性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 癫痫检测 多模态融合 脑电信号 视频分析 自监督学习
📋 核心要点
- 小鼠癫痫研究中,同步视频脑电的人工判读耗时费力,且单模态方法易受行为干扰或运动伪迹影响。
- EEGVFusion融合自监督脑电表征、时空视频编码、最优传输对齐和双向交叉注意力,整合神经和行为信息。
- 实验表明,EEGVFusion在保持高事件敏感性的同时,显著降低了癫痫检测的误报率。
📝 摘要(中文)
本研究提出了一种多模态框架EEGVFusion,用于提高小鼠模型中癫痫检测的可靠性。该框架结合了自监督脑电表征学习、时空视频编码、最优传输对齐和双向交叉注意力,以整合神经和行为证据。研究者还构建了一个专家标注的同步脑电和视频数据集,包含来自15只小鼠的93个会话,用于训练和评估。在随机会话分割中,EEGVFusion实现了0.9957的平衡准确率,事件敏感性达到100%,事件误报率为0.6250 FP/h。在单个留出受试者评估中,EEGVFusion的平衡准确率为0.9718,事件误报率从纯脑电方法的2.7250 FP/h降低到0.4833 FP/h,同时保持了100%的事件敏感性。消融实验表明,脑电预训练和最优传输对齐有助于减少误报,同时保持事件敏感性。
🔬 方法详解
问题定义:现有的小鼠癫痫检测方法主要依赖人工判读同步视频脑电记录,耗时且主观。单模态方法,如基于视频的检测易受正常行为干扰,而基于脑电的检测则易受运动伪迹影响,导致准确率下降。因此,如何有效融合脑电和视频信息,提高癫痫检测的可靠性,是一个亟待解决的问题。
核心思路:EEGVFusion的核心思路是利用多模态信息互补的优势,通过自监督学习提取脑电特征,利用时空编码提取视频特征,并采用最优传输对齐和双向交叉注意力机制,将两种模态的信息进行有效融合。这种方法旨在克服单模态方法的局限性,提高癫痫检测的准确性和鲁棒性。
技术框架:EEGVFusion框架主要包含以下几个模块:1) 自监督脑电表征学习模块,用于从原始脑电信号中提取鲁棒的特征表示;2) 时空视频编码模块,用于捕捉视频中的行为信息;3) 最优传输对齐模块,用于对齐脑电和视频特征,减小模态差异;4) 双向交叉注意力模块,用于在不同模态之间进行信息交互,增强特征表达能力;5) 癫痫检测分类器,用于最终的癫痫事件检测。
关键创新:该论文的关键创新在于:1) 提出了一种多模态融合框架,能够有效整合脑电和视频信息,提高癫痫检测的准确性和鲁棒性;2) 采用了自监督学习方法,从原始脑电信号中提取鲁棒的特征表示,减少了对标注数据的依赖;3) 引入了最优传输对齐和双向交叉注意力机制,能够有效对齐不同模态的特征,并进行信息交互。
关键设计:在脑电表征学习中,采用了对比学习方法进行自监督预训练。在视频编码中,使用了3D卷积神经网络来捕捉时空信息。最优传输对齐模块使用了Sinkhorn算法来计算最优传输矩阵。双向交叉注意力模块使用了Transformer结构来实现不同模态之间的信息交互。损失函数包括分类损失、对比学习损失和最优传输损失。
🖼️ 关键图片
📊 实验亮点
EEGVFusion在随机会话分割中实现了0.9957的平衡准确率,事件敏感性达到100%,事件误报率为0.6250 FP/h。在单个留出受试者评估中,EEGVFusion的平衡准确率为0.9718,事件误报率从纯脑电方法的2.7250 FP/h降低到0.4833 FP/h,同时保持了100%的事件敏感性。消融实验证明,脑电预训练和最优传输对齐有助于减少误报。
🎯 应用场景
该研究成果可应用于临床前癫痫药物研发,加速药物筛选过程,降低研发成本。此外,该方法也可推广至其他神经系统疾病的诊断和监测,例如睡眠障碍、脑损伤等,具有广阔的应用前景。未来,该技术有望应用于可穿戴设备,实现对癫痫患者的实时监测和预警。
📄 摘要(原文)
Reliable seizure detection in mouse models is essential for preclinical epilepsy research, yet manual review of synchronized video-EEG recordings is labor-intensive and single-modality systems fail for complementary reasons: video-based methods are easily confounded by benign behaviors, whereas EEG-based methods are vulnerable to ictal motion artifacts. We present EEGVFusion, a multimodal framework that combines self-supervised EEG representation learning, spatio-temporal video encoding, optimal-transport alignment, and bidirectional cross-attention to integrate neural and behavioral evidence. We also curate an expert-annotated dataset of synchronized EEG and video recordings comprising 93 sessions from 15 mice for training and evaluation. In the random-session split, EEGVFusion achieved a Balanced Accuracy of 0.9957 with perfect event sensitivity and an Event FAR of 0.6250 FP/h, indicating strong seizure detection performance with a low false-alarm burden. In a single held-out-subject evaluation with Subject 110 reserved for testing, EEGVFusion achieved a Balanced Accuracy of 0.9718 and reduced Event FAR from 2.7250 FP/h for the EEG-only counterpart to 0.4833 FP/h while preserving perfect event sensitivity. Targeted ablations further showed that EEG pre-training and OT alignment help reduce false alarms while preserving event sensitivity.