Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

📄 arXiv: 2603.03312 📥 PDF

作者: Yuchen Wang, Haonan Wang, Yu Guo, Honglong Yang, Xiaomeng Li

分类: cs.CL, cs.AI, cs.HC, eess.AS, bio.NC

发布日期: 2026-04-06


💡 一句话要点

提出SemKey框架,通过解耦语义引导实现脑电信号到文本解码的突破。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 脑电信号解码 脑机接口 自然语言生成 语义引导 大型语言模型

📋 核心要点

  1. 现有脑电信号到文本解码模型存在语义偏差、信号忽略和BLEU陷阱等问题,限制了其性能。
  2. SemKey框架通过解耦情感、主题、长度和惊奇度等语义目标,并强制模型关注神经输入,实现信号引导的生成。
  3. 实验表明,SemKey有效消除了噪声输入上的幻觉,并在多样性和对齐性评估上取得了最先进的性能。

📝 摘要(中文)

本文提出了一种名为SemKey的新型多阶段框架,旨在解决脑电信号(EEG)解码为自然语言这一具有挑战性的任务中存在的语义偏差、信号忽略和BLEU陷阱等问题。SemKey通过四个解耦的语义目标(情感、主题、长度和惊奇度)来强制进行信号引导的生成。该框架重新设计了神经编码器和大型语言模型(LLM)之间的交互,将语义提示作为查询,脑电嵌入作为键值对,从而严格要求模型关注神经输入。此外,采用N-way检索准确率和Fréchet距离来评估多样性和对齐性,超越了标准翻译指标的局限。实验结果表明,该方法有效地消除了噪声输入上的幻觉,并在这些鲁棒的协议上实现了最先进的性能。

🔬 方法详解

问题定义:脑电信号(EEG)解码为自然语言是一项极具挑战性的任务。现有方法存在三个主要痛点:一是语义偏差,模型容易陷入生成通用模板;二是信号忽略,模型倾向于基于语言先验进行“幻觉”式生成,而非依赖脑电信号输入;三是BLEU陷阱,评估指标容易被高频停用词影响,掩盖了模型在语义理解上的不足。

核心思路:SemKey的核心思路是通过解耦语义目标,并强制模型关注脑电信号输入,从而实现信号引导的文本生成。具体来说,将语义信息(情感、主题、长度、惊奇度)作为独立的约束条件,引导模型生成更准确、更丰富的文本。同时,通过重新设计神经编码器和大型语言模型的交互方式,确保模型充分利用脑电信号中的信息。

技术框架:SemKey是一个多阶段框架,主要包含以下模块:1) 脑电信号编码器:将脑电信号转换为嵌入向量。2) 语义提示生成器:根据脑电信号生成情感、主题、长度和惊奇度等语义提示。3) 解码器(LLM):以语义提示作为查询,脑电嵌入作为键值对,生成文本。框架通过多任务学习的方式,同时优化文本生成和语义提示预测。

关键创新:SemKey的关键创新在于:1) 提出了解耦语义引导的思想,将复杂的文本生成任务分解为多个独立的语义目标,从而更好地控制生成过程。2) 重新设计了神经编码器和大型语言模型的交互方式,通过将语义提示作为查询,脑电嵌入作为键值对,强制模型关注神经输入,避免了信号忽略问题。3) 采用了N-way检索准确率和Fréchet距离等更鲁棒的评估指标,克服了BLEU陷阱的局限。

关键设计:在神经编码器方面,可以使用卷积神经网络(CNN)或循环神经网络(RNN)等结构。语义提示生成器可以使用多层感知机(MLP)或Transformer等结构。解码器可以使用预训练的大型语言模型,如GPT-2或GPT-3。损失函数包括文本生成损失(如交叉熵损失)和语义提示预测损失(如均方误差损失)。在训练过程中,可以采用对抗训练等技术来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SemKey在噪声输入下有效消除了幻觉现象,并在N-way检索准确率和Fréchet距离等指标上取得了SOTA性能。这些结果表明,SemKey在脑电信号到文本解码任务中具有显著的优势,能够生成更准确、更鲁棒的文本。

🎯 应用场景

该研究成果可应用于脑机接口、神经康复、辅助沟通等领域。例如,可以帮助瘫痪患者通过脑电信号表达自己的想法,实现无障碍沟通。未来,该技术有望进一步发展,实现更自然、更流畅的脑电信号到文本的转换,为人类生活带来更多便利。

📄 摘要(原文)

Decoding natural language from non-invasive EEG signals is a promising yet challenging task. However, current state-of-the-art models remain constrained by three fundamental limitations: Semantic Bias (mode collapse into generic templates), Signal Neglect (hallucination based on linguistic priors rather than neural inputs), and the BLEU Trap, where evaluation metrics are artificially inflated by high-frequency stopwords, masking a lack of true semantic fidelity. To address these challenges, we propose SemKey, a novel multi-stage framework that enforces signal-grounded generation through four decoupled semantic objectives: sentiment, topic, length, and surprisal. We redesign the interaction between the neural encoder and the Large Language Model (LLM) by injecting semantic prompts as Queries and EEG embeddings as Key-Value pairs, strictly forcing the model to attend to neural inputs. Furthermore, we move beyond standard translation metrics by adopting N-way Retrieval Accuracy and Fréchet Distance to rigorously assess diversity and alignment. Extensive experiments demonstrate that our approach effectively eliminates hallucinations on noise inputs and achieves SOTA performance on these robust protocols. Code will be released upon acceptance atthis https URL.