Contextualization of ASR with LLM using phonetic retrieval-based augmentation

📄 arXiv: 2409.15353v1 📥 PDF

作者: Zhihong Lei, Xingyu Na, Mingbin Xu, Ernest Pusateri, Christophe Van Gysel, Yuanyuan Zhang, Shiyi Han, Zhen Huang

分类: eess.AS, cs.CL, cs.LG, cs.SD

发布日期: 2024-09-11


💡 一句话要点

提出基于音素检索增强的LLM语音识别上下文方法,提升命名实体识别准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大型语言模型 命名实体识别 音素检索 上下文建模

📋 核心要点

  1. 现有语音识别模型在处理语音中的个人命名实体时,准确率较低,尤其是在缺乏上下文信息的情况下。
  2. 该论文提出一种基于音素检索的增强方法,利用LLM检测命名实体,并从个人数据库中检索相似发音的实体作为上下文。
  3. 实验结果表明,该方法在语音助手任务中显著降低了词错误率和命名实体错误率,且适用于大型数据库。

📝 摘要(中文)

大型语言模型(LLM)在建模包括音频和文本在内的多模态信号方面表现出卓越的能力,允许模型根据语音输入生成口语或文本响应。然而,当输入模态是语音时,模型识别个人命名实体(例如电话簿中的联系人)仍然是一个挑战。本文从语音识别任务入手,提出了一种基于检索的解决方案来对LLM进行上下文处理:首先让LLM在没有任何上下文的情况下检测语音中的命名实体,然后使用该命名实体作为查询,从个人数据库中检索发音相似的命名实体,并将它们输入到LLM中,最后运行上下文感知的LLM解码。在一个语音助手任务中,与没有上下文处理的基线系统相比,我们的解决方案实现了高达30.2%的相对词错误率降低和73.6%的相对命名实体错误率降低。值得注意的是,我们的解决方案通过设计避免了使用完整的命名实体数据库来提示LLM,使其高效且适用于大型命名实体数据库。

🔬 方法详解

问题定义:语音识别任务中,准确识别个人命名实体(如联系人姓名)是一个挑战。现有方法在缺乏上下文信息时,容易出现识别错误,尤其是在发音相似的实体之间。

核心思路:利用大型语言模型(LLM)的强大能力,结合音素检索技术,为LLM提供上下文信息。核心思想是先识别出语音中的命名实体,然后通过音素相似度检索,从个人数据库中找到可能的候选实体,并将这些候选实体作为上下文输入LLM,从而提高识别准确率。

技术框架:整体流程包括以下几个阶段:1) 语音输入;2) LLM进行初步语音识别,提取命名实体;3) 使用提取的命名实体作为查询,进行音素检索,从个人数据库中获取候选命名实体;4) 将候选命名实体作为上下文信息输入LLM;5) LLM进行上下文感知的解码,输出最终识别结果。

关键创新:该方法的核心创新在于利用音素检索技术,避免了直接使用整个命名实体数据库来提示LLM。这种方法大大提高了效率,使其能够应用于大型命名实体数据库。同时,结合LLM的上下文建模能力,提高了命名实体识别的准确率。

关键设计:音素检索模块的设计是关键。具体实现细节未知,但可以推测使用了某种音素相似度度量方法,例如编辑距离或基于音素embedding的相似度计算。LLM的选择和微调策略也至关重要,需要根据具体的语音识别任务和数据集进行优化。损失函数和网络结构等细节信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在语音助手任务中,与没有上下文处理的基线系统相比,实现了高达30.2%的相对词错误率降低和73.6%的相对命名实体错误率降低。这表明该方法能够显著提高语音识别的准确率,尤其是在命名实体识别方面。

🎯 应用场景

该研究成果可应用于语音助手、智能家居、车载语音交互等领域,提升用户在语音交互过程中对个人信息的识别准确率。例如,用户可以通过语音指令快速拨打电话、发送短信或查找联系人,提高语音交互的便捷性和用户体验。未来,该技术有望扩展到其他需要识别特定命名实体的语音应用场景。

📄 摘要(原文)

Large language models (LLMs) have shown superb capability of modeling multimodal signals including audio and text, allowing the model to generate spoken or textual response given a speech input. However, it remains a challenge for the model to recognize personal named entities, such as contacts in a phone book, when the input modality is speech. In this work, we start with a speech recognition task and propose a retrieval-based solution to contextualize the LLM: we first let the LLM detect named entities in speech without any context, then use this named entity as a query to retrieve phonetically similar named entities from a personal database and feed them to the LLM, and finally run context-aware LLM decoding. In a voice assistant task, our solution achieved up to 30.2% relative word error rate reduction and 73.6% relative named entity error rate reduction compared to a baseline system without contextualization. Notably, our solution by design avoids prompting the LLM with the full named entity database, making it highly efficient and applicable to large named entity databases.