BELT-2: Bootstrapping EEG-to-Language representation alignment for multi-task brain decoding
作者: Jinzhao Zhou, Yiqun Duan, Fred Chang, Thomas Do, Yu-Kai Wang, Chin-Teng Lin
分类: eess.SP, cs.AI, cs.LG, eess.AS
发布日期: 2024-08-28
💡 一句话要点
BELT-2:通过脑电-语言表征对齐引导多任务脑解码
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑机接口 脑电信号解码 大型语言模型 多任务学习 字节对编码 表征对齐
📋 核心要点
- 现有脑机接口方法在脑电信号解码方面存在局限,难以生成连贯可读的句子。
- BELT-2通过字节对编码级别的脑电-语言对齐和多任务训练来提升脑电编码器质量。
- BELT-2通过前缀调优将脑电编码器与大型语言模型连接,显著提升了解码性能。
📝 摘要(中文)
本文提出了BELT-2,一个旨在提升脑电信号编码和解码性能的多任务模型。为了增强脑电编码器的质量,BELT-2创新性地采用了字节对编码(BPE)级别的脑电-语言对齐,并集成了脑电领域的多任务训练和解码。受到“用GPT桥接大脑”思想的启发,我们进一步通过对脑电编码器中间输出进行前缀调优,将多任务脑电编码器与大型语言模型(LLM)连接起来。这些创新使BELT-2成为该领域的突破,首次能够从非侵入性脑信号中解码出连贯且可读的句子。实验结果表明,在定量和定性指标上,BELT-2均优于现有技术,在ZuCo数据集上实现了52.2%的BLEU-1得分。此外,BELT-2在其他翻译基准测试中表现出显著的改进,提升幅度从31%到162%。
🔬 方法详解
问题定义:现有脑机接口技术在将脑电信号解码为自然语言方面存在挑战,解码出的句子通常缺乏连贯性和可读性。现有的方法难以充分利用脑电信号中蕴含的丰富信息,并且缺乏有效的脑电信号与语言模型之间的对齐机制。
核心思路:BELT-2的核心思路是通过脑电信号与语言表征的对齐,以及多任务学习的框架,来提升脑电信号解码的质量。具体来说,它利用字节对编码(BPE)级别的对齐,使得脑电编码器能够学习到更细粒度的脑电信号与语言之间的对应关系。同时,通过多任务学习,模型可以同时学习多个与脑电信号相关的任务,从而提升模型的泛化能力和鲁棒性。
技术框架:BELT-2的整体框架包含一个脑电编码器和一个大型语言模型(LLM)。脑电编码器负责将脑电信号转换为中间表征,然后通过前缀调优的方式,将该中间表征输入到LLM中。LLM则负责生成最终的自然语言句子。整个框架采用端到端的训练方式,通过优化一个多任务损失函数,来同时提升脑电编码器和LLM的性能。
关键创新:BELT-2的关键创新在于以下两点:一是首次采用了字节对编码(BPE)级别的脑电-语言对齐,这使得模型能够学习到更细粒度的脑电信号与语言之间的对应关系。二是集成了多任务训练和解码,这使得模型能够同时学习多个与脑电信号相关的任务,从而提升模型的泛化能力和鲁棒性。
关键设计:BELT-2的关键设计包括:1) 使用Transformer作为脑电编码器的基本架构;2) 采用BPE对文本进行编码,并将其与脑电信号进行对齐;3) 设计了一个多任务损失函数,该损失函数包含多个与脑电信号相关的任务,例如句子分类、情感识别等;4) 使用前缀调优的方式,将脑电编码器的中间输出输入到LLM中,从而利用LLM强大的生成能力。
🖼️ 关键图片
📊 实验亮点
BELT-2在ZuCo数据集上实现了52.2%的BLEU-1得分,相较于现有技术取得了显著的提升。此外,在其他翻译基准测试中,BELT-2的性能提升幅度从31%到162%。这些实验结果表明,BELT-2在脑电信号解码方面具有显著的优势,能够生成更连贯、更可读的句子。该研究为脑机接口领域的发展做出了重要贡献。
🎯 应用场景
BELT-2的研究成果具有广泛的应用前景,例如辅助瘫痪患者进行交流、提升人机交互的自然性、以及在神经科学研究中用于理解大脑活动与语言之间的关系。该技术可以帮助那些无法通过传统方式进行交流的患者,例如渐冻症患者,通过脑电信号来表达自己的想法和需求。此外,BELT-2还可以应用于虚拟现实、游戏等领域,提升人机交互的沉浸感和自然性。未来,该技术有望为脑科学研究提供新的工具和方法。
📄 摘要(原文)
The remarkable success of large language models (LLMs) across various multi-modality applications is well established. However, integrating large language models with humans, or brain dynamics, remains relatively unexplored. In this paper, we introduce BELT-2, a pioneering multi-task model designed to enhance both encoding and decoding performance from EEG signals. To bolster the quality of the EEG encoder, BELT-2 is the first work to innovatively 1) adopt byte-pair encoding (BPE)-level EEG-language alignment and 2) integrate multi-task training and decoding in the EEG domain. Inspired by the idea of \textbf{\textit{Bridging the Brain with GPT}}, we further connect the multi-task EEG encoder with LLMs by utilizing prefix-tuning on intermediary output from the EEG encoder. These innovative efforts make BELT-2 a pioneering breakthrough, making it the first work in the field capable of decoding coherent and readable sentences from non-invasive brain signals. Our experiments highlight significant advancements over prior techniques in both quantitative and qualitative measures, achieving a decoding performance with a BLEU-1 score of 52.2\% on the ZuCo dataset. Furthermore, BELT-2 shows a remarkable improvement ranging from 31\% to 162\% on other translation benchmarks. Codes can be accessed via the provided anonymous link~\footnote{https://anonymous.4open.science/r/BELT-2-0048}.