Speech Recognition Rescoring with Large Speech-Text Foundation Models

📄 arXiv: 2409.16654v1 📥 PDF

作者: Prashanth Gurunath Shivakumar, Jari Kolehmainen, Aditya Gourav, Yi Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko

分类: eess.AS, cs.CL, cs.SD

发布日期: 2024-09-25


💡 一句话要点

利用语音-文本大模型进行语音识别重打分,显著提升ASR性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 重打分 多模态学习 大语言模型 语音-文本模型

📋 核心要点

  1. 传统ASR系统受限于标注语音数据,难以充分利用海量未标注数据,导致性能瓶颈。
  2. 提出利用语音-文本多模态大模型进行ASR重打分,实现跨模态知识迁移,提升语音识别准确率。
  3. 实验表明,该方法在Whisper large ASR和文本LLM基础上,分别实现了高达20%和15%的相对性能提升。

📝 摘要(中文)

本文提出了一种利用多模态大语言模型(LLM)进行自动语音识别(ASR)重打分的新技术。传统的ASR系统受限于转录语音数据的数量,而LLM能够通过大量文本数据理解人类语言。最近,语音-文本基础模型在口语理解方面表现出强大的能力。这些模型利用大量的未标记和已标记的语音和文本数据来建模人类语言。本文探索了使用多模态LLM进行ASR重打分,并研究了判别式训练以进一步提高重打分性能。实验结果表明,语音-文本LLM中的跨模态知识迁移可以有效提升重打分效果,相对于Whisper large ASR,性能提升高达20%,相对于仅使用文本的LLM,性能提升高达15%。

🔬 方法详解

问题定义:论文旨在解决自动语音识别(ASR)系统中,由于训练数据不足导致的性能瓶颈问题。现有ASR系统,特别是基于深度学习的模型,通常需要大量的标注语音数据进行训练。然而,获取高质量的标注数据成本高昂,限制了ASR系统的性能提升。此外,仅使用文本数据训练的语言模型无法充分利用语音信息,导致重打分效果有限。

核心思路:论文的核心思路是利用预训练的语音-文本多模态大语言模型(LLM)进行ASR重打分。通过将语音和文本信息融合到同一个模型中,可以实现跨模态知识迁移,从而提高ASR系统的性能。这种方法能够充分利用大量的未标注语音数据和文本数据,克服了传统ASR系统对标注数据的依赖。

技术框架:该方法主要包含以下几个阶段:1) 使用现有的ASR系统(如Whisper)生成候选的识别结果(N-best列表或lattice)。2) 将候选结果和对应的语音特征输入到预训练的语音-文本LLM中。3) LLM对每个候选结果进行评分,评分越高表示该结果越有可能正确。4) 根据LLM的评分对候选结果进行重排序,选择得分最高的作为最终的识别结果。此外,论文还探索了使用判别式训练来微调LLM,以进一步提高重打分性能。

关键创新:论文的关键创新在于将语音-文本多模态LLM应用于ASR重打分。与传统的仅使用文本的LLM相比,该方法能够利用语音信息,从而提高重打分的准确性。此外,论文还探索了使用判别式训练来微调LLM,以进一步提高重打分性能。这种方法能够充分利用大量的未标注语音数据和文本数据,克服了传统ASR系统对标注数据的依赖。

关键设计:论文中没有详细描述具体的参数设置、损失函数、网络结构等技术细节。但是,可以推断,LLM的网络结构可能采用了Transformer架构,损失函数可能采用了交叉熵损失函数。判别式训练的具体方法未知,可能涉及到调整LLM的参数,使其更好地适应ASR重打分任务。

📊 实验亮点

实验结果表明,使用语音-文本LLM进行ASR重打分可以显著提高语音识别的准确率。相对于Whisper large ASR,性能提升高达20%,相对于仅使用文本的LLM,性能提升高达15%。这些结果表明,语音-文本LLM中的跨模态知识迁移可以有效提升重打分效果。

🎯 应用场景

该研究成果可广泛应用于各种语音识别相关的应用场景,如语音助手、语音搜索、语音转录、智能客服等。通过提高语音识别的准确率,可以改善用户体验,提高工作效率。未来,该技术有望应用于低资源语言的语音识别,以及噪声环境下的语音识别。

📄 摘要(原文)

Large language models (LLM) have demonstrated the ability to understand human language by leveraging large amount of text data. Automatic speech recognition (ASR) systems are often limited by available transcribed speech data and benefit from a second pass rescoring using LLM. Recently multi-modal large language models, particularly speech and text foundational models have demonstrated strong spoken language understanding. Speech-Text foundational models leverage large amounts of unlabelled and labelled data both in speech and text modalities to model human language. In this work, we propose novel techniques to use multi-modal LLM for ASR rescoring. We also explore discriminative training to further improve the foundational model rescoring performance. We demonstrate cross-modal knowledge transfer in speech-text LLM can benefit rescoring. Our experiments demonstrate up-to 20% relative improvements over Whisper large ASR and up-to 15% relative improvements over text-only LLM.