MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction

📄 arXiv: 2408.05362v1 📥 PDF

作者: Suyi Zhang, Ekram Alam, Jack Baber, Francesca Bianco, Edward Turner, Maysam Chamanzar, Hamid Dehghani

分类: cs.HC, cs.AI

发布日期: 2024-07-25


💡 一句话要点

MindSpeech:利用高密度fNIRS和Prompt Tuning实现连续想象语音解码,促进人机交互

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑机接口 想象语音解码 功能性近红外光谱 Prompt Tuning 大型语言模型

📋 核心要点

  1. 现有脑机接口在连续想象语音解码方面存在挑战,难以实现自然流畅的人机交互。
  2. MindSpeech利用高密度fNIRS获取脑活动数据,结合Prompt Tuning和Llama2大语言模型,实现连续语音解码。
  3. 实验结果表明,该方法在BLEU-1和BERT P等指标上显著提升,验证了其有效性,并探索了多被试数据融合的潜力。

📝 摘要(中文)

本文提出了一种名为MindSpeech的新型AI模型,用于实现开放词汇、连续的想象语音解码,从而促进人机交互。该研究利用高密度功能性近红外光谱(fNIRS)数据,开发了一种能够非侵入式解码想象语音的AI模型。通过一种新的词云范式进行数据收集,提高了参与者生成的想象句子的质量和多样性,覆盖了广泛的语义空间。采用基于Prompt Tuning的方法,利用Llama2大型语言模型(LLM)在脑信号的指导下生成文本。结果表明,对于四名参与者中的三名,关键指标(如BLEU-1和BERT P分数)得到了显著改善,证明了该方法的有效性。此外,将多个参与者的数据相结合可以提高解码器性能,两名参与者的BERT分数有统计学意义上的显著提高。研究还表明,想象语音与静息状态相比,解码准确率明显高于偶然水平,并且研究中识别出的想象语音任务期间激活的脑区与先前关于语音编码相关脑区的研究一致。这项研究强调了连续想象语音解码的可行性,通过整合高密度fNIRS与先进的AI技术,突出了在不久的将来与AI进行非侵入式、准确通信系统的潜力。

🔬 方法详解

问题定义:论文旨在解决非侵入式脑机接口中,连续想象语音解码的难题。现有方法通常依赖侵入式电极或低密度脑电信号,限制了其应用范围和解码精度。此外,如何将脑信号有效地转化为自然语言文本,也是一个重要的挑战。

核心思路:论文的核心思路是利用高密度fNIRS技术,获取更精确的脑活动信息,并结合Prompt Tuning方法,引导大型语言模型(LLM)生成与想象语音内容相符的文本。通过这种方式,可以实现非侵入式、连续的想象语音解码,并提高解码的准确性和流畅性。

技术框架:MindSpeech的技术框架主要包括三个阶段:1) 数据采集阶段:使用高密度fNIRS记录参与者在进行想象语音任务时的脑活动数据。采用词云范式,引导参与者生成多样化的句子。2) 特征提取与预处理阶段:对fNIRS数据进行预处理,提取与想象语音相关的脑活动特征。3) 解码阶段:利用Prompt Tuning方法,将脑活动特征作为Prompt,输入到Llama2大型语言模型中,生成对应的文本。

关键创新:该论文的关键创新在于:1) 采用了高密度fNIRS技术,提高了脑活动信号的采集精度。2) 提出了基于Prompt Tuning的解码方法,充分利用了大型语言模型的文本生成能力。3) 设计了一种新的词云范式,用于收集多样化的想象语音数据。

关键设计:在数据采集方面,采用了词云范式,鼓励参与者自由组合词语,生成多样化的句子。在解码方面,使用了Llama2-7B模型,并通过Prompt Tuning进行微调。Prompt的设计至关重要,需要将脑活动特征有效地转化为LLM可以理解的输入。损失函数方面,主要优化生成文本与目标文本之间的相似度,例如使用交叉熵损失或BERTScore等指标。

📊 实验亮点

实验结果表明,MindSpeech在连续想象语音解码方面取得了显著进展。对于四名参与者中的三名,BLEU-1和BERT P分数得到了显著改善。此外,将多个参与者的数据相结合可以进一步提高解码器性能,两名参与者的BERT分数有统计学意义上的显著提高。与静息状态相比,想象语音的解码准确率也明显高于偶然水平。

🎯 应用场景

该研究成果可应用于辅助沟通、神经康复、虚拟现实等领域。例如,帮助失语症患者通过想象语音与外界交流;为瘫痪患者提供一种新的控制外部设备的手段;在虚拟现实环境中,实现更自然、沉浸式的交互体验。未来,随着脑机接口技术的不断发展,MindSpeech有望成为人机交互的重要方式。

📄 摘要(原文)

In the coming decade, artificial intelligence systems will continue to improve and revolutionise every industry and facet of human life. Designing effective, seamless and symbiotic communication paradigms between humans and AI agents is increasingly important. This paper reports a novel method for human-AI interaction by developing a direct brain-AI interface. We discuss a novel AI model, called MindSpeech, which enables open-vocabulary, continuous decoding for imagined speech. This study focuses on enhancing human-AI communication by utilising high-density functional near-infrared spectroscopy (fNIRS) data to develop an AI model capable of decoding imagined speech non-invasively. We discuss a new word cloud paradigm for data collection, improving the quality and variety of imagined sentences generated by participants and covering a broad semantic space. Utilising a prompt tuning-based approach, we employed the Llama2 large language model (LLM) for text generation guided by brain signals. Our results show significant improvements in key metrics, such as BLEU-1 and BERT P scores, for three out of four participants, demonstrating the method's effectiveness. Additionally, we demonstrate that combining data from multiple participants enhances the decoder performance, with statistically significant improvements in BERT scores for two participants. Furthermore, we demonstrated significantly above-chance decoding accuracy for imagined speech versus resting conditions and the identified activated brain regions during imagined speech tasks in our study are consistent with the previous studies on brain regions involved in speech encoding. This study underscores the feasibility of continuous imagined speech decoding. By integrating high-density fNIRS with advanced AI techniques, we highlight the potential for non-invasive, accurate communication systems with AI in the near future.