Improving Contextual ASR via Multi-grained Fusion with Large Language Models

作者: Shilin Zhou, Zhenghua Li

分类: cs.CL, cs.AI

发布日期: 2025-07-16

💡 一句话要点

提出一种多粒度融合的上下文ASR方法，利用大型语言模型提升关键词识别。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动语音识别 上下文识别 关键词识别 多粒度融合 大型语言模型

📋 核心要点

现有ASR模型在上下文关键词识别方面存在不足，难以准确识别专有名词等。
提出多粒度融合方法，结合token级别和phrase级别融合，并融入大型语言模型。
实验结果表明，该方法在关键词识别方面达到state-of-the-art，且保持了非关键词文本的高精度。

📝 摘要（中文）

端到端自动语音识别（ASR）模型在通用语音转录方面表现出色，但在准确识别上下文相关的关键词（如专有名词或用户特定实体）时常常遇到困难。以往的方法探索了利用文本模态中的关键词词典来改善关键词识别，包括指导逐个token生成的token级别融合，以及直接复制关键词短语的phrase级别融合。然而，这些方法在不同粒度上操作，各有局限性。本文提出了一种新颖的多粒度融合方法，结合了token级别和phrase级别融合的优势，并利用大型语言模型（LLM）。该方法采用了一种late-fusion策略，优雅地将ASR的声学信息与LLM丰富的上下文知识相结合，平衡了细粒度的token精度与整体的phrase级别理解。在中文和英文数据集上的实验表明，该方法在关键词相关指标上实现了最先进的性能，同时保持了非关键词文本的高精度。消融研究进一步证实，token级别和phrase级别组件都对性能提升做出了显著贡献，并在我们的联合多粒度框架中相互补充。

🔬 方法详解

问题定义：论文旨在解决端到端ASR模型在上下文关键词识别方面的不足，尤其是在专有名词和用户自定义实体等方面的识别精度问题。现有方法主要集中在token级别或phrase级别的融合，但单一粒度的方法无法充分利用上下文信息，导致识别效果受限。

核心思路：论文的核心思路是结合token级别和phrase级别的融合策略，利用大型语言模型（LLM）的强大上下文建模能力，实现多粒度的信息融合。通过late-fusion策略，将ASR的声学信息与LLM的文本信息进行有效结合，从而提升关键词识别的准确性。

技术框架：整体框架包含ASR模型、token级别融合模块、phrase级别融合模块和LLM。ASR模型负责将语音转换为文本序列，token级别融合模块利用关键词词典指导token的生成，phrase级别融合模块直接复制关键词短语。LLM则提供上下文信息，通过late-fusion策略与ASR的输出进行融合，最终得到识别结果。

关键创新：最重要的创新点在于多粒度融合策略，它克服了单一粒度方法的局限性，同时利用了token级别融合的精确性和phrase级别融合的整体性。此外，late-fusion策略使得ASR的声学信息和LLM的文本信息能够有效互补，提升了识别效果。

关键设计：论文采用late-fusion策略，将ASR模型的输出和LLM的输出进行加权融合。具体的权重参数需要根据实验进行调整，以达到最佳的性能。损失函数方面，除了传统的ASR损失函数外，可能还引入了针对关键词识别的辅助损失函数，以进一步提升关键词识别的精度。网络结构方面，LLM可以采用预训练的Transformer模型，并根据具体任务进行微调。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在中文和英文数据集上均取得了state-of-the-art的性能。相较于现有方法，在关键词相关指标上取得了显著提升，同时保持了非关键词文本的高精度。消融实验进一步验证了token级别和phrase级别融合组件的有效性，证明了多粒度融合策略的优越性。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、语音搜索等领域，提升这些应用在特定场景下的语音识别准确率，尤其是在需要准确识别专有名词、用户自定义词汇等上下文相关关键词的场景下，具有重要的实际应用价值和商业前景。未来，该方法可以进一步扩展到更多语言和领域，并与其他技术相结合，实现更智能、更准确的语音识别。

📄 摘要（原文）

While end-to-end Automatic Speech Recognition (ASR) models have shown impressive performance in transcribing general speech, they often struggle to accurately recognize contextually relevant keywords, such as proper nouns or user-specific entities. Previous approaches have explored leveraging keyword dictionaries in the textual modality to improve keyword recognition, either through token-level fusion that guides token-by-token generation or phrase-level fusion that enables direct copying of keyword phrases. However, these methods operate at different granularities and have their own limitations. In this paper, we propose a novel multi-grained fusion approach that jointly leverages the strengths of both token-level and phrase-level fusion with Large Language Models (LLMs). Our approach incorporates a late-fusion strategy that elegantly combines ASR's acoustic information with LLM's rich contextual knowledge, balancing fine-grained token precision with holistic phrase-level understanding. Experiments on Chinese and English datasets demonstrate that our approach achieves state-of-the-art performance on keyword-related metrics while preserving high accuracy on non-keyword text. Ablation studies further confirm that the token-level and phrase-level components both contribute significantly to the performance gains, complementing each other in our joint multi-grained framework. The code and models will be publicly available at https://github.com/.

Improving Contextual ASR via Multi-grained Fusion with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理