Reconstructing Unseen Sentences from Speech-related Biosignals for Open-vocabulary Neural Communication

📄 arXiv: 2510.27247v1 📥 PDF

作者: Deok-Seon Kim, Seo-Hyun Lee, Kang Yin, Seong-Whan Lee

分类: cs.HC, cs.AI

发布日期: 2025-10-31

备注: Accepted for publication in IEEE Transactions on Neural Systems and Rehabilitation Engineering

DOI: 10.1109/TNSRE.2025.3625219


💡 一句话要点

提出基于脑电和肌电信号的语音合成方法,实现开放词汇神经交流

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 脑-语音接口 脑电信号 肌电信号 语音合成 开放词汇 神经交流 音素解码

📋 核心要点

  1. 现有脑-语音系统主要解码预定义词句,难以实现开放词汇的自然交流,面临泛化性挑战。
  2. 该研究提出一种基于脑电和肌电信号的语音合成方法,通过音素级信息重建未见句子。
  3. 实验表明,该方法能够有效合成未见句子,为开发个性化神经交流系统奠定基础。

📝 摘要(中文)

本研究探索了一种脑-语音(BTS)系统,旨在通过直接将神经活动转化为语言表达来实现人际交流的突破。现有非侵入式BTS研究主要集中于解码预定义的单词或句子,而实现与自然人际交互相媲美的开放词汇神经交流,需要解码不受约束的语音。此外,有效整合来自语音的各种信号对于开发个性化和自适应的神经交流和患者康复解决方案至关重要。本研究通过利用从高密度脑电图(EEG)信号中提取的音素级信息,独立地或与肌电图(EMG)信号结合,研究了语音合成在各种语音模式下对先前未见句子的潜力。此外,我们检查了影响句子重建期间音素解码准确性的属性,并提供神经生理学见解,以进一步增强脑电图解码,从而实现更有效的神经交流解决方案。我们的研究结果强调了基于生物信号的句子级语音合成在重建未见句子方面的可行性,标志着朝着开发适应不同患者需求和状况的开放词汇神经交流系统迈出的重要一步。此外,本研究为利用基于脑电图的解码技术开发通信和康复解决方案提供了有意义的见解。

🔬 方法详解

问题定义:现有脑-语音接口(BSI)系统主要依赖于预定义的词汇或短语,无法实现开放词汇的自由交流。这限制了BSI在实际场景中的应用,特别是对于需要表达复杂想法或情感的患者。此外,如何有效利用多种生物信号(如脑电和肌电信号)来提高语音合成的准确性和鲁棒性也是一个挑战。

核心思路:本研究的核心思路是利用音素作为语音合成的基本单元。通过解码脑电和肌电信号中的音素信息,可以将这些音素组合成任意句子,从而实现开放词汇的语音合成。这种方法的关键在于建立生物信号与音素之间的可靠映射关系。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 生物信号采集:使用高密度脑电图(EEG)和肌电图(EMG)记录受试者在产生语音时的神经活动和肌肉活动。2) 特征提取:从EEG和EMG信号中提取与音素相关的特征,例如时域特征、频域特征和小波特征。3) 音素解码:使用机器学习模型(例如深度神经网络)将提取的特征映射到对应的音素。4) 语音合成:将解码后的音素序列输入到语音合成器中,生成可听的语音信号。

关键创新:该研究的关键创新在于:1) 实现了基于脑电和肌电信号的开放词汇语音合成,突破了传统BSI系统的词汇限制。2) 探索了多种生物信号融合的方法,提高了音素解码的准确性和鲁棒性。3) 深入分析了影响音素解码准确性的神经生理学因素,为进一步优化BSI系统提供了理论指导。

关键设计:在音素解码阶段,研究者使用了深度神经网络模型,例如卷积神经网络(CNN)和循环神经网络(RNN)。这些模型能够有效地学习生物信号与音素之间的复杂关系。损失函数通常采用交叉熵损失,用于衡量模型预测的音素概率分布与真实音素标签之间的差异。此外,研究者还探索了不同的数据增强方法,例如时域扰动和频域扰动,以提高模型的泛化能力。

🖼️ 关键图片

img_0

📊 实验亮点

该研究成功实现了基于脑电和肌电信号的未见句子重建,验证了开放词汇神经交流的可行性。通过分析音素解码准确性的影响因素,为进一步提升脑电解码性能提供了神经生理学见解。实验结果表明,该方法在重建未见句子方面具有显著潜力。

🎯 应用场景

该研究成果可应用于开发新一代脑-语音接口,帮助失语症、渐冻症等患者恢复交流能力。通过个性化定制,系统可适应不同患者的神经生理特征,提供更自然、流畅的语音输出。未来,该技术有望与虚拟现实、增强现实等技术结合,创造更丰富的交流体验。

📄 摘要(原文)

Brain-to-speech (BTS) systems represent a groundbreaking approach to human communication by enabling the direct transformation of neural activity into linguistic expressions. While recent non-invasive BTS studies have largely focused on decoding predefined words or sentences, achieving open-vocabulary neural communication comparable to natural human interaction requires decoding unconstrained speech. Additionally, effectively integrating diverse signals derived from speech is crucial for developing personalized and adaptive neural communication and rehabilitation solutions for patients. This study investigates the potential of speech synthesis for previously unseen sentences across various speech modes by leveraging phoneme-level information extracted from high-density electroencephalography (EEG) signals, both independently and in conjunction with electromyography (EMG) signals. Furthermore, we examine the properties affecting phoneme decoding accuracy during sentence reconstruction and offer neurophysiological insights to further enhance EEG decoding for more effective neural communication solutions. Our findings underscore the feasibility of biosignal-based sentence-level speech synthesis for reconstructing unseen sentences, highlighting a significant step toward developing open-vocabulary neural communication systems adapted to diverse patient needs and conditions. Additionally, this study provides meaningful insights into the development of communication and rehabilitation solutions utilizing EEG-based decoding technologies.