Evaluation Of P300 Speller Performance Using Large Language Models Along With Cross-Subject Training
作者: Nithin Parthasarathy, James Soetedjo, Saarang Panchavati, Nitya Parthasarathy, Corey Arnold, Nader Pouratian, William Speier
分类: cs.HC, cs.CL
发布日期: 2024-10-19
备注: 21 pages, 11 figures, 1 table. arXiv admin note: substantial text overlap with arXiv:2405.13329
💡 一句话要点
利用大型语言模型和跨主体训练提升P300拼写器性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: P300拼写器 脑机接口 大型语言模型 运动神经元疾病 跨主体训练
📋 核心要点
- P300拼写器脑机接口旨在帮助ALS患者进行沟通,但现有方法在多受试者训练和交互效率方面存在瓶颈。
- 本研究提出结合大型语言模型(如GPT2、BERT、BART)和Dijkstra算法,优化刺激呈现和单词预测,提升拼写速度。
- 实验结果表明,该方法在键入包含罕见词汇的段落时,速度显著提升,GPT2多词预测的增益约为40%。
📝 摘要(中文)
肌萎缩侧索硬化症(ALS)是一种进行性神经肌肉退行性疾病,会在发病后几年内严重限制患者的沟通能力,导致生活质量显著下降。P300拼写器脑机接口(BCI)通过利用受试者对图形用户界面(GUI)上字符网格中高亮显示的字符的脑电反应,提供了一种替代的沟通媒介。P300相关研究的一个反复出现的主题是提高性能,以实现更快的受试者交互。本研究在此基础上,通过解决关键限制,特别是在多受试者分类器的训练中,并通过整合先进的语言模型来优化刺激呈现和单词预测,从而提高沟通效率。此外,还利用各种先进的大型语言模型,如生成式预训练Transformer(GPT2)、BERT和BART,以及Dijkstra算法,根据拼写历史优化刺激并提供单词补全选择。此外,应用多层平滑方法来允许词汇表外(OOV)单词。通过基于受试者随机采样的脑电数据进行广泛的模拟,我们表明,在键入包含罕见和词汇表外(OOV)单词的段落时,速度有了显著提高,改进的程度取决于所使用的语言模型。这种字符级界面优化的增益约为10%,而GPT2用于多词预测的增益约为40%。特别是,一些大型语言模型实现了接近本研究中建立的理论性能限制10%以内的性能水平。此外,还探讨了受试者内部和受试者之间的训练技术,并表明速度的提高在两种情况下都成立。
🔬 方法详解
问题定义:P300拼写器旨在帮助运动神经元疾病患者进行有效沟通,但现有方法存在以下痛点:一是多受试者训练的泛化能力不足,需要针对每个用户进行个性化训练;二是拼写速度慢,影响沟通效率,尤其是在遇到罕见词汇或词汇表外词汇时。
核心思路:本研究的核心思路是利用大型语言模型的强大语言建模能力,结合Dijkstra算法,优化刺激呈现和单词预测,从而提高拼写速度和效率。通过语言模型预测用户可能输入的单词,并优先呈现相关字符,减少用户选择次数。
技术框架:整体框架包含以下几个主要模块:1)脑电信号采集与预处理;2)P300事件相关电位检测与分类;3)基于大型语言模型的刺激呈现优化;4)基于Dijkstra算法的单词补全;5)多层平滑处理,以支持词汇表外(OOV)单词的输入。
关键创新:最重要的技术创新点在于将大型语言模型应用于P300拼写器,利用语言模型的上下文理解能力,动态调整刺激呈现方式,从而显著提高拼写速度。与传统方法相比,该方法能够更好地预测用户的输入意图,减少不必要的字符选择。
关键设计:关键设计包括:1)选择合适的语言模型(GPT2、BERT、BART等),并针对P300拼写器的特点进行微调;2)设计有效的刺激呈现策略,例如根据语言模型的预测概率,调整字符的闪烁频率或呈现顺序;3)采用多层平滑方法,处理词汇表外(OOV)单词,保证用户可以输入任意文本。
📊 实验亮点
实验结果表明,该方法在键入包含罕见和词汇表外(OOV)单词的段落时,速度有了显著提高。字符级界面优化的增益约为10%,而GPT2用于多词预测的增益约为40%。一些大型语言模型实现了接近理论性能限制10%以内的性能水平。此外,受试者内部和受试者之间的训练技术均显示出速度的提高。
🎯 应用场景
该研究成果可应用于辅助ALS等运动障碍患者进行高效沟通,提高他们的生活质量。此外,该技术还可扩展到其他脑机接口应用场景,例如智能家居控制、虚拟现实交互等,为残疾人士提供更便捷的生活方式。
📄 摘要(原文)
Amyotrophic lateral sclerosis (ALS), a progressive neuromuscular degenerative disease, severely restricts patient communication capacity within a few years of onset, resulting in a significant deterioration of quality of life. The P300 speller brain computer interface (BCI) offers an alternative communication medium by leveraging a subject's EEG response to characters traditionally highlighted on a character grid on a graphical user interface (GUI). A recurring theme in P300-based research is enhancing performance to enable faster subject interaction. This study builds on that theme by addressing key limitations, particularly in the training of multi-subject classifiers, and by integrating advanced language models to optimize stimuli presentation and word prediction, thereby improving communication efficiency. Furthermore, various advanced large language models such as Generative Pre-Trained Transformer (GPT2), BERT, and BART, alongside Dijkstra's algorithm, are utilized to optimize stimuli and provide word completion choices based on the spelling history. In addition, a multi-layered smoothing approach is applied to allow for out-of-vocabulary (OOV) words. By conducting extensive simulations based on randomly sampled EEG data from subjects, we show substantial speed improvements in typing passages that include rare and out-of-vocabulary (OOV) words, with the extent of improvement varying depending on the language model utilized. The gains through such character-level interface optimizations are approximately 10%, and GPT2 for multi-word prediction provides gains of around 40%. In particular, some large language models achieve performance levels within 10% of the theoretical performance limits established in this study. In addition, both within and across subjects, training techniques are explored, and speed improvements are shown to hold in both cases.