Evaluation of Automatic Speech Recognition Using Generative Large Language Models

作者: Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso, Petr Motlicek, Shiran Liu, Mickael Rouvier, Jane Wottawa, Richard Dufour

分类: cs.CL

发布日期: 2026-04-23

💡 一句话要点

利用生成式大语言模型评估自动语音识别，提升语义相关性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动语音识别 大语言模型 语义评估 词错误率 假设选择 文本嵌入 语音理解

📋 核心要点

传统ASR评估指标如WER无法捕捉语义信息，与人类感知存在差距。
利用生成式LLM，通过假设选择、语义距离计算和错误分类进行ASR评估。
实验表明，LLM在假设选择上与人类标注高度一致，优于传统指标和语义度量。

📝 摘要（中文）

本文探讨了使用生成式大语言模型（LLM）评估自动语音识别（ASR）的相关性。传统的ASR评估方法，如词错误率（WER），对语义不敏感。虽然基于嵌入的语义指标与人类感知更相关，但基于解码器的LLM在此任务中的应用仍未被充分探索。本文通过三种方法评估了LLM的相关性：（1）在两个候选假设中选择最佳假设；（2）使用生成嵌入计算语义距离；（3）对错误进行定性分类。在HATS数据集上，最佳LLM在假设选择方面与人类标注者达成92-94%的一致性，而WER仅为63%，并且优于语义指标。来自基于解码器的LLM的嵌入显示出与编码器模型相当的性能。最后，LLM为可解释和语义化的ASR评估提供了一个有希望的方向。

🔬 方法详解

问题定义：自动语音识别（ASR）的评估长期依赖于词错误率（WER），但WER只关注字面上的准确性，忽略了语义信息，导致评估结果与人类对语音理解的感知存在偏差。现有基于嵌入的语义指标虽然有所改进，但基于解码器的大语言模型（LLM）在ASR评估中的潜力尚未充分挖掘。

核心思路：本文的核心思路是利用生成式LLM强大的语义理解和生成能力，从语义层面评估ASR系统的输出质量。通过让LLM参与假设选择、语义距离计算和错误分类，可以更全面、更准确地反映ASR系统的性能，并使其与人类的感知更加一致。

技术框架：本文采用了三种不同的方法来评估LLM在ASR评估中的有效性： 1. 假设选择：给定两个ASR系统的输出假设，使用LLM选择更符合人类理解的假设。 2. 语义距离计算：使用LLM生成文本嵌入，并计算不同假设之间的语义距离，距离越小表示语义越接近。 3. 错误分类：利用LLM对ASR系统产生的错误进行分类，例如替换错误、插入错误等，从而深入了解ASR系统的弱点。

关键创新：本文的关键创新在于将生成式LLM引入到ASR评估流程中，并探索了多种利用LLM进行语义评估的方法。与传统的基于规则或统计的方法相比，LLM能够更好地捕捉语音中的语义信息，从而提供更准确、更全面的评估结果。此外，本文还比较了基于编码器和解码器的LLM在ASR评估中的性能，为未来的研究提供了参考。

关键设计：在假设选择任务中，LLM被用作一个分类器，输入是两个候选假设，输出是LLM认为更优的假设。在语义距离计算中，LLM被用来生成文本嵌入，然后使用余弦相似度等指标计算嵌入之间的距离。在错误分类任务中，LLM被用来对ASR系统产生的错误进行分类，例如替换错误、插入错误等。具体参数设置和网络结构信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在HATS数据集上，最佳LLM在假设选择任务中与人类标注者达成92-94%的一致性，显著优于传统的WER指标（63%），并且超过了其他语义指标。此外，基于解码器的LLM生成的嵌入在语义距离计算方面表现出与编码器模型相当的性能。这些结果表明，LLM在ASR评估方面具有巨大的潜力。

🎯 应用场景

该研究成果可应用于语音助手、语音搜索、语音转录等多种场景，提升用户体验。更准确的ASR评估方法能够帮助开发者更好地优化模型，提高语音交互系统的可靠性和实用性。未来，该方法有望应用于更复杂的语音理解任务，例如语音情感识别、语音对话系统等。

📄 摘要（原文）

Automatic Speech Recognition (ASR) is traditionally evaluated using Word Error Rate (WER), a metric that is insensitive to meaning. Embedding-based semantic metrics are better correlated with human perception, but decoder-based Large Language Models (LLMs) remain underexplored for this task. This paper evaluates their relevance through three approaches: (1) selecting the best hypothesis between two candidates, (2) computing semantic distance using generative embeddings, and (3) qualitative classification of errors. On the HATS dataset, the best LLMs achieve 92--94\% agreement with human annotators for hypothesis selection, compared to 63\% for WER, also outperforming semantic metrics. Embeddings from decoder-based LLMs show performance comparable to encoder models. Finally, LLMs offer a promising direction for interpretable and semantic ASR evaluation.

Evaluation of Automatic Speech Recognition Using Generative Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理