ETS: Open Vocabulary Electroencephalography-To-Text Decoding and Sentiment Classification
作者: Mohamed Masry, Mohamed Amen, Mohamed Elzyat, Mohamed Hamed, Norhan Magdy, Maram Khaled
分类: cs.LG, cs.CL, cs.HC
发布日期: 2025-05-26
备注: Graduation project report submitted at Faculty of Computer Science and Artificial Intelligence, Helwan University
💡 一句话要点
ETS:结合脑电与眼动数据的开放词汇脑电文本解码与情感分类框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 脑电信号 眼动追踪 文本解码 情感分类 多模态融合 脑机接口 开放词汇
📋 核心要点
- 开放词汇脑电文本解码面临噪声和变异性挑战,传统方法难以有效处理。
- ETS框架结合脑电与眼动数据,用于开放词汇文本生成和情感分类。
- 实验结果表明,ETS在文本生成和情感分类任务上均显著优于基线模型。
📝 摘要(中文)
本研究提出了一种名为ETS的框架,该框架集成了脑电(EEG)与同步眼动追踪数据,旨在解决两个关键任务:开放词汇文本生成和感知语言的情感分类。利用非侵入性脑电信号解码自然语言是一项重要的神经科学和机器学习挑战,尤其是在开放词汇场景下,传统方法难以应对噪声和变异性。我们的模型在脑电文本解码任务上取得了优异的BLEU和Rouge分数,并在基于脑电的三元情感分类任务上获得了高达10%的F1分数提升,显著优于监督基线。此外,我们证明了所提出的模型可以处理来自不同受试者和来源的数据,显示出高性能开放词汇脑电文本系统的巨大潜力。
🔬 方法详解
问题定义:论文旨在解决开放词汇场景下,利用非侵入式脑电信号解码自然语言的难题。现有方法在处理开放词汇时,由于脑电信号的噪声和个体差异,解码准确率显著下降,难以满足实际应用需求。
核心思路:论文的核心思路是将脑电信号与同步眼动追踪数据相结合,利用眼动数据提供的额外信息来辅助脑电信号的解码过程。眼动数据可以反映受试者在阅读或思考时的注意力焦点和认知过程,从而帮助模型更好地理解脑电信号所代表的语义信息。
技术框架:ETS框架包含脑电信号处理模块、眼动数据处理模块、多模态融合模块和文本生成/情感分类模块。脑电信号处理模块负责对原始脑电信号进行预处理、特征提取等操作。眼动数据处理模块负责对眼动数据进行清洗、特征提取等操作。多模态融合模块将脑电信号和眼动数据进行融合,得到更具表达力的特征表示。文本生成/情感分类模块利用融合后的特征进行文本生成或情感分类。
关键创新:该论文的关键创新在于将眼动数据引入到脑电文本解码任务中,利用眼动数据提供的额外信息来提升解码的准确率和鲁棒性。此外,该论文还提出了一种新的多模态融合方法,能够有效地将脑电信号和眼动数据进行融合。
关键设计:论文中使用了Transformer模型作为文本生成器,并采用交叉熵损失函数进行训练。在多模态融合方面,论文提出了一种基于注意力机制的融合方法,能够自适应地学习不同模态之间的权重。具体的参数设置和网络结构细节在论文中有详细描述。
📊 实验亮点
实验结果表明,ETS模型在脑电文本解码任务上取得了显著的性能提升,BLEU和Rouge分数均优于基线模型。在基于脑电的三元情感分类任务上,ETS模型获得了高达10%的F1分数提升,表明该模型能够有效地识别脑电信号所代表的情感信息。此外,该模型还具有较好的跨受试者泛化能力。
🎯 应用场景
该研究成果可应用于辅助沟通、脑机接口、情感识别等领域。例如,可以帮助失语症患者通过脑电信号表达自己的想法,也可以用于开发基于脑电信号的情感识别系统,从而实现更自然、更智能的人机交互。未来,该技术有望在医疗、教育、娱乐等领域发挥重要作用。
📄 摘要(原文)
Decoding natural language from brain activity using non-invasive electroencephalography (EEG) remains a significant challenge in neuroscience and machine learning, particularly for open-vocabulary scenarios where traditional methods struggle with noise and variability. Previous studies have achieved high accuracy on small-closed vocabularies, but it still struggles on open vocabularies. In this study, we propose ETS, a framework that integrates EEG with synchronized eye-tracking data to address two critical tasks: (1) open-vocabulary text generation and (2) sentiment classification of perceived language. Our model achieves a superior performance on BLEU and Rouge score for EEG-To-Text decoding and up to 10% F1 score on EEG-based ternary sentiment classification, which significantly outperforms supervised baselines. Furthermore, we show that our proposed model can handle data from various subjects and sources, showing great potential for high performance open vocabulary eeg-to-text system.