Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words

📄 arXiv: 2408.08027v2 📥 PDF

作者: Kento Nozawa, Takashi Masuko, Toru Taniguchi

分类: eess.AS, cs.CL, cs.SD

发布日期: 2024-08-15 (更新: 2024-10-11)

备注: 13 pages, 1 figure, and 7 tables


💡 一句话要点

提出基于LLM的语音识别系统,通过上下文关键词提示提升稀有和歧义词识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大型语言模型 上下文学习 关键词提示 稀有词识别

📋 核心要点

  1. 现有ASR系统在处理稀有词汇和歧义词时表现不佳,缺乏有效的上下文信息利用。
  2. 该方法利用LLM的强大语言建模能力,通过关键词提示为ASR系统提供上下文信息。
  3. 实验表明,该方法显著提升了稀有词汇和歧义词的识别准确率,效果明显。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的自动语音识别(ASR)系统,该系统可以通过在文本提示中提供关键词作为先验信息来进行上下文定制。我们采用decoder-only架构,并使用我们内部的LLM,PLaMo-100B,该模型使用以日语和英语文本为主的数据集从头开始预训练作为解码器。我们采用预训练的Whisper编码器作为音频编码器,来自音频编码器的音频嵌入通过适配器层投影到文本嵌入空间,并与从文本提示转换的文本嵌入连接,形成解码器的输入。通过在文本提示中提供关键词作为先验信息,我们可以对基于LLM的ASR系统进行上下文定制,而无需修改模型架构,从而准确转录输入音频中的歧义词。实验结果表明,向解码器提供关键词可以显著提高稀有和歧义词的识别性能。

🔬 方法详解

问题定义:论文旨在解决自动语音识别(ASR)中,对于稀有词汇和歧义词识别准确率低的问题。现有的ASR系统通常难以有效利用上下文信息,导致在处理这些词汇时容易出错。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语言建模能力,通过在输入文本提示中加入关键词作为先验信息,为ASR系统提供上下文语境,从而提高对稀有词汇和歧义词的识别准确率。这种方法无需修改模型架构,即可实现上下文定制。

技术框架:该系统采用decoder-only架构的LLM(PLaMo-100B)作为解码器,并使用预训练的Whisper编码器作为音频编码器。音频编码器提取的音频嵌入通过一个适配器层投影到文本嵌入空间,然后与从文本提示转换得到的文本嵌入连接,共同作为解码器的输入。解码器根据音频嵌入和文本提示(包含关键词)生成文本。

关键创新:该方法最重要的创新点在于利用文本提示中的关键词来引导LLM解码器,从而实现上下文定制的ASR。与传统的ASR系统相比,该方法能够更有效地利用上下文信息,提高对稀有词汇和歧义词的识别准确率。此外,该方法无需对模型架构进行修改,具有较好的灵活性和可扩展性。

关键设计:PLaMo-100B是一个从头开始预训练的LLM,使用包含大量日语和英语文本的数据集进行训练。适配器层用于将音频嵌入投影到文本嵌入空间,其具体结构和参数设置未知。文本提示的设计是关键,需要选择合适的关键词来提供有效的上下文信息。损失函数和训练策略的具体细节未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,通过在文本提示中提供关键词,该系统能够显著提高稀有词汇和歧义词的识别性能。具体的性能提升数据和对比基线未知,但摘要强调了“显著提高”,表明该方法具有较强的实用性。

🎯 应用场景

该研究成果可应用于语音助手、语音搜索、自动字幕生成等领域,尤其是在需要准确识别专业术语、人名地名等稀有词汇的场景下。通过提供上下文关键词,可以显著提升语音识别的准确性和可靠性,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

We develop a large language model (LLM) based automatic speech recognition (ASR) system that can be contextualized by providing keywords as prior information in text prompts. We adopt decoder-only architecture and use our in-house LLM, PLaMo-100B, pre-trained from scratch using datasets dominated by Japanese and English texts as the decoder. We adopt a pre-trained Whisper encoder as an audio encoder, and the audio embeddings from the audio encoder are projected to the text embedding space by an adapter layer and concatenated with text embeddings converted from text prompts to form inputs to the decoder. By providing keywords as prior information in the text prompts, we can contextualize our LLM-based ASR system without modifying the model architecture to transcribe ambiguous words in the input audio accurately. Experimental results demonstrate that providing keywords to the decoder can significantly improve the recognition performance of rare and ambiguous words.