Evaluation of Automatic Speech Recognition Using Generative Large Language Models
作者: Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso, Petr Motlicek, Shiran Liu, Mickael Rouvier, Jane Wottawa, Richard Dufour
分类: cs.CL
发布日期: 2026-04-23
💡 一句话要点
利用生成式大语言模型评估自动语音识别,提升语义相关性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动语音识别 大语言模型 语义评估 词错误率 假设选择 文本嵌入 语音理解
📋 核心要点
- 传统ASR评估指标如WER无法捕捉语义信息,与人类感知存在差距。
- 利用生成式LLM,通过假设选择、语义距离计算和错误分类进行ASR评估。
- 实验表明,LLM在假设选择上与人类标注高度一致,优于传统指标和语义度量。
📝 摘要(中文)
本文探讨了使用生成式大语言模型(LLM)评估自动语音识别(ASR)的相关性。传统的ASR评估方法,如词错误率(WER),对语义不敏感。虽然基于嵌入的语义指标与人类感知更相关,但基于解码器的LLM在此任务中的应用仍未被充分探索。本文通过三种方法评估了LLM的相关性:(1)在两个候选假设中选择最佳假设;(2)使用生成嵌入计算语义距离;(3)对错误进行定性分类。在HATS数据集上,最佳LLM在假设选择方面与人类标注者达成92-94%的一致性,而WER仅为63%,并且优于语义指标。来自基于解码器的LLM的嵌入显示出与编码器模型相当的性能。最后,LLM为可解释和语义化的ASR评估提供了一个有希望的方向。
🔬 方法详解
问题定义:自动语音识别(ASR)的评估长期依赖于词错误率(WER),但WER只关注字面上的准确性,忽略了语义信息,导致评估结果与人类对语音理解的感知存在偏差。现有基于嵌入的语义指标虽然有所改进,但基于解码器的大语言模型(LLM)在ASR评估中的潜力尚未充分挖掘。
核心思路:本文的核心思路是利用生成式LLM强大的语义理解和生成能力,从语义层面评估ASR系统的输出质量。通过让LLM参与假设选择、语义距离计算和错误分类,可以更全面、更准确地反映ASR系统的性能,并使其与人类的感知更加一致。
技术框架:本文采用了三种不同的方法来评估LLM在ASR评估中的有效性: 1. 假设选择:给定两个ASR系统的输出假设,使用LLM选择更符合人类理解的假设。 2. 语义距离计算:使用LLM生成文本嵌入,并计算不同假设之间的语义距离,距离越小表示语义越接近。 3. 错误分类:利用LLM对ASR系统产生的错误进行分类,例如替换错误、插入错误等,从而深入了解ASR系统的弱点。
关键创新:本文的关键创新在于将生成式LLM引入到ASR评估流程中,并探索了多种利用LLM进行语义评估的方法。与传统的基于规则或统计的方法相比,LLM能够更好地捕捉语音中的语义信息,从而提供更准确、更全面的评估结果。此外,本文还比较了基于编码器和解码器的LLM在ASR评估中的性能,为未来的研究提供了参考。
关键设计:在假设选择任务中,LLM被用作一个分类器,输入是两个候选假设,输出是LLM认为更优的假设。在语义距离计算中,LLM被用来生成文本嵌入,然后使用余弦相似度等指标计算嵌入之间的距离。在错误分类任务中,LLM被用来对ASR系统产生的错误进行分类,例如替换错误、插入错误等。具体参数设置和网络结构信息未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在HATS数据集上,最佳LLM在假设选择任务中与人类标注者达成92-94%的一致性,显著优于传统的WER指标(63%),并且超过了其他语义指标。此外,基于解码器的LLM生成的嵌入在语义距离计算方面表现出与编码器模型相当的性能。这些结果表明,LLM在ASR评估方面具有巨大的潜力。
🎯 应用场景
该研究成果可应用于语音助手、语音搜索、语音转录等多种场景,提升用户体验。更准确的ASR评估方法能够帮助开发者更好地优化模型,提高语音交互系统的可靠性和实用性。未来,该方法有望应用于更复杂的语音理解任务,例如语音情感识别、语音对话系统等。
📄 摘要(原文)
Automatic Speech Recognition (ASR) is traditionally evaluated using Word Error Rate (WER), a metric that is insensitive to meaning. Embedding-based semantic metrics are better correlated with human perception, but decoder-based Large Language Models (LLMs) remain underexplored for this task. This paper evaluates their relevance through three approaches: (1) selecting the best hypothesis between two candidates, (2) computing semantic distance using generative embeddings, and (3) qualitative classification of errors. On the HATS dataset, the best LLMs achieve 92--94\% agreement with human annotators for hypothesis selection, compared to 63\% for WER, also outperforming semantic metrics. Embeddings from decoder-based LLMs show performance comparable to encoder models. Finally, LLMs offer a promising direction for interpretable and semantic ASR evaluation.