AADNet: Exploring EEG Spatiotemporal Information for Fast and Accurate Orientation and Timbre Detection of Auditory Attention Based on A Cue-Masked Paradigm
作者: Keren Shi, Xu Liu, Xue Yuan, Haijie Shang, Ruiting Dai, Hanbin Wang, Yunfa Fu, Ning Jiang, Jiayuan He
分类: cs.LG, cs.SD, eess.AS, q-bio.NC
发布日期: 2025-01-07
💡 一句话要点
提出AADNet,利用脑电时空信息快速准确解码听觉注意的方向和音色
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 听觉注意解码 脑电信号 深度学习 时空信息 神经引导助听器
📋 核心要点
- 现有听觉注意解码方法在真实场景中存在信息泄露问题,且解码精度和速度有待提高。
- 提出AADNet,通过线索掩蔽范式避免信息泄露,并利用深度学习模型提取脑电信号的时空特征。
- 实验结果表明,AADNet在0.5秒窗口内实现了超过90%的听觉注意解码准确率,优于现有方法。
📝 摘要(中文)
本研究旨在解决噪声环境下从脑电图(EEG)解码听觉注意的问题,以推断用户正在关注哪个声源。为了模拟真实场景,提出了一种线索掩蔽听觉注意范式,以避免实验前的信息泄露。为了在低延迟下获得高解码精度,提出了一种端到端深度学习模型AADNet,以利用脑电信号短时窗的时空信息。结果表明,使用0.5秒的脑电窗口,AADNet在解码听觉方向注意(OA)和音色注意(TA)方面的平均准确率分别达到93.46%和91.09%。它显著优于五种先前的方法,并且不需要原始音频源的知识。这项工作表明,可以快速准确地从脑电信号中检测听觉注意的方向和音色。该结果对于实时多属性听觉注意解码具有前景,有助于神经引导助听器和其他辅助听力设备的应用。
🔬 方法详解
问题定义:该论文旨在解决在嘈杂环境中,如何快速准确地从脑电信号中解码出用户正在关注的声源的方向和音色。现有的方法可能存在信息泄露问题,并且在解码精度和速度上存在局限性,难以满足实时应用的需求。
核心思路:论文的核心思路是利用深度学习模型,直接从短时窗的脑电信号中提取时空特征,从而实现快速准确的听觉注意解码。通过设计线索掩蔽的实验范式,避免实验前的信息泄露,更贴近真实应用场景。
技术框架:AADNet是一个端到端的深度学习模型,输入为短时窗的脑电信号,输出为用户关注的声源方向或音色。整体框架包括数据预处理、特征提取和分类三个主要阶段。数据预处理包括滤波和降采样等操作。特征提取阶段利用卷积神经网络(CNN)提取脑电信号的空间特征,并利用循环神经网络(RNN)提取时间特征。最后,分类器根据提取的时空特征进行听觉注意解码。
关键创新:AADNet的关键创新在于其端到端的设计和对脑电信号时空信息的有效利用。与传统方法相比,AADNet无需人工提取特征,能够自动学习脑电信号中的判别性特征。此外,AADNet通过结合CNN和RNN,能够同时提取脑电信号的空间和时间特征,从而提高解码精度。
关键设计:AADNet的网络结构包括卷积层、池化层、循环层和全连接层。卷积层用于提取脑电信号的空间特征,循环层用于提取时间特征,全连接层用于分类。损失函数采用交叉熵损失函数。实验中,使用了0.5秒的脑电窗口,并对脑电信号进行了滤波和降采样等预处理操作。具体的网络参数设置未知。
📊 实验亮点
AADNet在听觉方向注意(OA)和音色注意(TA)解码任务中,分别取得了93.46%和91.09%的平均准确率,显著优于五种现有方法。该模型仅需0.5秒的脑电窗口即可实现高精度解码,具有低延迟的优势。更重要的是,AADNet无需原始音频源的信息,更具实用性。
🎯 应用场景
该研究成果可应用于神经引导助听器、辅助听力设备等领域。通过实时解码用户的听觉注意,助听器可以自动增强用户关注的声源,抑制干扰噪声,从而提高用户的听觉体验。此外,该技术还可应用于人机交互、虚拟现实等领域,实现更加自然和高效的交互方式。
📄 摘要(原文)
Auditory attention decoding from electroencephalogram (EEG) could infer to which source the user is attending in noisy environments. Decoding algorithms and experimental paradigm designs are crucial for the development of technology in practical applications. To simulate real-world scenarios, this study proposed a cue-masked auditory attention paradigm to avoid information leakage before the experiment. To obtain high decoding accuracy with low latency, an end-to-end deep learning model, AADNet, was proposed to exploit the spatiotemporal information from the short time window of EEG signals. The results showed that with a 0.5-second EEG window, AADNet achieved an average accuracy of 93.46% and 91.09% in decoding auditory orientation attention (OA) and timbre attention (TA), respectively. It significantly outperformed five previous methods and did not need the knowledge of the original audio source. This work demonstrated that it was possible to detect the orientation and timbre of auditory attention from EEG signals fast and accurately. The results are promising for the real-time multi-property auditory attention decoding, facilitating the application of the neuro-steered hearing aids and other assistive listening devices.