Improving Contextual ASR via Multi-grained Fusion with Large Language Models

📄 arXiv: 2507.12252v1 📥 PDF

作者: Shilin Zhou, Zhenghua Li

分类: cs.CL, cs.AI

发布日期: 2025-07-16


💡 一句话要点

提出一种多粒度融合的上下文ASR方法,利用大型语言模型提升关键词识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动语音识别 上下文识别 关键词识别 多粒度融合 大型语言模型

📋 核心要点

  1. 现有ASR模型在上下文关键词识别方面存在不足,难以准确识别专有名词等。
  2. 提出多粒度融合方法,结合token级别和phrase级别融合,并融入大型语言模型。
  3. 实验结果表明,该方法在关键词识别方面达到state-of-the-art,且保持了非关键词文本的高精度。

📝 摘要(中文)

端到端自动语音识别(ASR)模型在通用语音转录方面表现出色,但在准确识别上下文相关的关键词(如专有名词或用户特定实体)时常常遇到困难。以往的方法探索了利用文本模态中的关键词词典来改善关键词识别,包括指导逐个token生成的token级别融合,以及直接复制关键词短语的phrase级别融合。然而,这些方法在不同粒度上操作,各有局限性。本文提出了一种新颖的多粒度融合方法,结合了token级别和phrase级别融合的优势,并利用大型语言模型(LLM)。该方法采用了一种late-fusion策略,优雅地将ASR的声学信息与LLM丰富的上下文知识相结合,平衡了细粒度的token精度与整体的phrase级别理解。在中文和英文数据集上的实验表明,该方法在关键词相关指标上实现了最先进的性能,同时保持了非关键词文本的高精度。消融研究进一步证实,token级别和phrase级别组件都对性能提升做出了显著贡献,并在我们的联合多粒度框架中相互补充。

🔬 方法详解

问题定义:论文旨在解决端到端ASR模型在上下文关键词识别方面的不足,尤其是在专有名词和用户自定义实体等方面的识别精度问题。现有方法主要集中在token级别或phrase级别的融合,但单一粒度的方法无法充分利用上下文信息,导致识别效果受限。

核心思路:论文的核心思路是结合token级别和phrase级别的融合策略,利用大型语言模型(LLM)的强大上下文建模能力,实现多粒度的信息融合。通过late-fusion策略,将ASR的声学信息与LLM的文本信息进行有效结合,从而提升关键词识别的准确性。

技术框架:整体框架包含ASR模型、token级别融合模块、phrase级别融合模块和LLM。ASR模型负责将语音转换为文本序列,token级别融合模块利用关键词词典指导token的生成,phrase级别融合模块直接复制关键词短语。LLM则提供上下文信息,通过late-fusion策略与ASR的输出进行融合,最终得到识别结果。

关键创新:最重要的创新点在于多粒度融合策略,它克服了单一粒度方法的局限性,同时利用了token级别融合的精确性和phrase级别融合的整体性。此外,late-fusion策略使得ASR的声学信息和LLM的文本信息能够有效互补,提升了识别效果。

关键设计:论文采用late-fusion策略,将ASR模型的输出和LLM的输出进行加权融合。具体的权重参数需要根据实验进行调整,以达到最佳的性能。损失函数方面,除了传统的ASR损失函数外,可能还引入了针对关键词识别的辅助损失函数,以进一步提升关键词识别的精度。网络结构方面,LLM可以采用预训练的Transformer模型,并根据具体任务进行微调。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在中文和英文数据集上均取得了state-of-the-art的性能。相较于现有方法,在关键词相关指标上取得了显著提升,同时保持了非关键词文本的高精度。消融实验进一步验证了token级别和phrase级别融合组件的有效性,证明了多粒度融合策略的优越性。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、语音搜索等领域,提升这些应用在特定场景下的语音识别准确率,尤其是在需要准确识别专有名词、用户自定义词汇等上下文相关关键词的场景下,具有重要的实际应用价值和商业前景。未来,该方法可以进一步扩展到更多语言和领域,并与其他技术相结合,实现更智能、更准确的语音识别。

📄 摘要(原文)

While end-to-end Automatic Speech Recognition (ASR) models have shown impressive performance in transcribing general speech, they often struggle to accurately recognize contextually relevant keywords, such as proper nouns or user-specific entities. Previous approaches have explored leveraging keyword dictionaries in the textual modality to improve keyword recognition, either through token-level fusion that guides token-by-token generation or phrase-level fusion that enables direct copying of keyword phrases. However, these methods operate at different granularities and have their own limitations. In this paper, we propose a novel multi-grained fusion approach that jointly leverages the strengths of both token-level and phrase-level fusion with Large Language Models (LLMs). Our approach incorporates a late-fusion strategy that elegantly combines ASR's acoustic information with LLM's rich contextual knowledge, balancing fine-grained token precision with holistic phrase-level understanding. Experiments on Chinese and English datasets demonstrate that our approach achieves state-of-the-art performance on keyword-related metrics while preserving high accuracy on non-keyword text. Ablation studies further confirm that the token-level and phrase-level components both contribute significantly to the performance gains, complementing each other in our joint multi-grained framework. The code and models will be publicly available at https://github.com/.