Contextualization of ASR with LLM using phonetic retrieval-based augmentation

作者: Zhihong Lei, Xingyu Na, Mingbin Xu, Ernest Pusateri, Christophe Van Gysel, Yuanyuan Zhang, Shiyi Han, Zhen Huang

分类: eess.AS, cs.CL, cs.LG, cs.SD

发布日期: 2024-09-11

💡 一句话要点

提出基于音素检索增强的LLM语音识别上下文方法，提升命名实体识别准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大型语言模型 命名实体识别 音素检索 上下文建模

📋 核心要点

现有语音识别模型在处理语音中的个人命名实体时，准确率较低，尤其是在缺乏上下文信息的情况下。
该论文提出一种基于音素检索的增强方法，利用LLM检测命名实体，并从个人数据库中检索相似发音的实体作为上下文。
实验结果表明，该方法在语音助手任务中显著降低了词错误率和命名实体错误率，且适用于大型数据库。

📝 摘要（中文）

大型语言模型(LLM)在建模包括音频和文本在内的多模态信号方面表现出卓越的能力，允许模型根据语音输入生成口语或文本响应。然而，当输入模态是语音时，模型识别个人命名实体（例如电话簿中的联系人）仍然是一个挑战。本文从语音识别任务入手，提出了一种基于检索的解决方案来对LLM进行上下文处理：首先让LLM在没有任何上下文的情况下检测语音中的命名实体，然后使用该命名实体作为查询，从个人数据库中检索发音相似的命名实体，并将它们输入到LLM中，最后运行上下文感知的LLM解码。在一个语音助手任务中，与没有上下文处理的基线系统相比，我们的解决方案实现了高达30.2%的相对词错误率降低和73.6%的相对命名实体错误率降低。值得注意的是，我们的解决方案通过设计避免了使用完整的命名实体数据库来提示LLM，使其高效且适用于大型命名实体数据库。

🔬 方法详解

问题定义：语音识别任务中，准确识别个人命名实体（如联系人姓名）是一个挑战。现有方法在缺乏上下文信息时，容易出现识别错误，尤其是在发音相似的实体之间。

核心思路：利用大型语言模型（LLM）的强大能力，结合音素检索技术，为LLM提供上下文信息。核心思想是先识别出语音中的命名实体，然后通过音素相似度检索，从个人数据库中找到可能的候选实体，并将这些候选实体作为上下文输入LLM，从而提高识别准确率。

技术框架：整体流程包括以下几个阶段：1) 语音输入；2) LLM进行初步语音识别，提取命名实体；3) 使用提取的命名实体作为查询，进行音素检索，从个人数据库中获取候选命名实体；4) 将候选命名实体作为上下文信息输入LLM；5) LLM进行上下文感知的解码，输出最终识别结果。

关键创新：该方法的核心创新在于利用音素检索技术，避免了直接使用整个命名实体数据库来提示LLM。这种方法大大提高了效率，使其能够应用于大型命名实体数据库。同时，结合LLM的上下文建模能力，提高了命名实体识别的准确率。

关键设计：音素检索模块的设计是关键。具体实现细节未知，但可以推测使用了某种音素相似度度量方法，例如编辑距离或基于音素embedding的相似度计算。LLM的选择和微调策略也至关重要，需要根据具体的语音识别任务和数据集进行优化。损失函数和网络结构等细节信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在语音助手任务中，与没有上下文处理的基线系统相比，实现了高达30.2%的相对词错误率降低和73.6%的相对命名实体错误率降低。这表明该方法能够显著提高语音识别的准确率，尤其是在命名实体识别方面。

🎯 应用场景

该研究成果可应用于语音助手、智能家居、车载语音交互等领域，提升用户在语音交互过程中对个人信息的识别准确率。例如，用户可以通过语音指令快速拨打电话、发送短信或查找联系人，提高语音交互的便捷性和用户体验。未来，该技术有望扩展到其他需要识别特定命名实体的语音应用场景。

📄 摘要（原文）

Large language models (LLMs) have shown superb capability of modeling multimodal signals including audio and text, allowing the model to generate spoken or textual response given a speech input. However, it remains a challenge for the model to recognize personal named entities, such as contacts in a phone book, when the input modality is speech. In this work, we start with a speech recognition task and propose a retrieval-based solution to contextualize the LLM: we first let the LLM detect named entities in speech without any context, then use this named entity as a query to retrieve phonetically similar named entities from a personal database and feed them to the LLM, and finally run context-aware LLM decoding. In a voice assistant task, our solution achieved up to 30.2% relative word error rate reduction and 73.6% relative named entity error rate reduction compared to a baseline system without contextualization. Notably, our solution by design avoids prompting the LLM with the full named entity database, making it highly efficient and applicable to large named entity databases.

Contextualization of ASR with LLM using phonetic retrieval-based augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理