Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition

📄 arXiv: 2505.22251v2 📥 PDF

作者: Yuan Tseng, Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Bhattacharya

分类: eess.AS, cs.CL

发布日期: 2025-05-28 (更新: 2025-06-05)


💡 一句话要点

揭示LLM语音识别评估漏洞:LibriSpeech和Common Voice数据集污染

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语音识别 数据污染 评估方法 LibriSpeech Common Voice 预训练语料库

📋 核心要点

  1. 现有语音识别评估依赖LibriSpeech和Common Voice,但这些数据集可能已污染LLM预训练数据。
  2. 通过对比有无污染数据训练的LLM,分析数据污染对语音识别结果的影响。
  3. 实验表明,数据污染虽对错误率影响小,但显著提高了LLM对训练集中转录的置信度。

📝 摘要(中文)

最近的研究表明,大型语言模型(LLM)能够提升语音任务的性能,优于现有系统。为了支持这些结论,研究人员经常引用LibriSpeech和Common Voice数据集上的结果。然而,本文发现LibriSpeech和Common Voice评估集中有相当一部分数据出现在公开的LLM预训练语料库中。这使得基于这两个数据集得出的结论的可靠性受到质疑。为了衡量污染的影响,本文比较了在有/无污染数据下训练的LLM。受污染的LLM更有可能生成在训练期间见过的测试语句。然后,比较了基于LLM的语音识别器。结果表明,如果LLM受到污染,错误率差异很小,但对于在LLM训练期间见过的转录,LLM会赋予明显更高的概率。结果表明,少量的数据污染会使LLM的输出产生偏差,突出了使用held-out数据评估基于LLM的语音系统的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在语音识别任务评估中,由于评估数据集(如LibriSpeech和Common Voice)被污染而导致评估结果不可靠的问题。现有方法直接使用这些数据集评估LLM,忽略了数据污染可能带来的偏差,使得评估结果无法真实反映LLM的泛化能力。

核心思路:论文的核心思路是通过对比在受污染和未受污染数据上训练的LLM,来量化数据污染对语音识别性能的影响。具体来说,如果LLM在训练过程中见过了测试集的数据,那么它在测试时更有可能生成这些数据,从而导致评估结果偏高。

技术框架:论文的技术框架主要包括以下几个步骤:1) 检测LibriSpeech和Common Voice数据集中是否存在于公开LLM预训练语料库中的数据;2) 分别使用受污染和未受污染的数据训练LLM;3) 使用训练好的LLM构建语音识别器;4) 在LibriSpeech和Common Voice数据集上评估这些语音识别器的性能,并比较它们的结果。

关键创新:论文最重要的技术创新点在于揭示了LLM在语音识别评估中普遍存在的数据污染问题,并提供了一种量化这种污染影响的方法。通过对比实验,论文证明了数据污染会对LLM的输出产生偏差,即使错误率差异不大,LLM也会对训练集中见过的转录赋予更高的概率。

关键设计:论文的关键设计包括:1) 精确检测预训练语料库中是否存在测试集数据的方法;2) 构建基于LLM的语音识别器,并使用相同的解码器和声学模型,以便公平比较不同LLM的性能;3) 使用概率分布和错误率等指标来全面评估LLM的性能,并分析数据污染对这些指标的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使LLM受到数据污染,其错误率差异可能很小,但LLM会显著提高对训练期间见过的转录的概率。这表明,即使在整体性能指标上没有明显提升,数据污染也会对LLM的输出产生偏差,从而影响评估结果的可靠性。该研究强调了使用held-out数据评估LLM的重要性。

🎯 应用场景

该研究成果可应用于语音识别系统的开发和评估,尤其是在使用大型语言模型时。通过避免使用受污染的数据集进行评估,可以更准确地衡量模型的泛化能力和实际性能。此外,该研究也提醒研究人员在构建和评估其他机器学习系统时,需要关注数据污染问题,以确保评估结果的可靠性。

📄 摘要(原文)

Recent work suggests that large language models (LLMs) can improve performance of speech tasks compared to existing systems. To support their claims, results on LibriSpeech and Common Voice are often quoted. However, this work finds that a substantial amount of the LibriSpeech and Common Voice evaluation sets appear in public LLM pretraining corpora. This calls into question the reliability of findings drawn from these two datasets. To measure contamination impact, LLMs trained with/without contamination are compared. A contaminated LLM is more likely to generate test sentences it has seen during training. Then, speech recognisers based on LLMs are compared. They show only subtle error rate differences if the LLM is contaminated, but assign significantly higher probabilities to transcriptions seen during LLM training. Results show that LLM outputs can be biased by tiny amounts of data contamination, highlighting the importance of evaluating LLM-based speech systems with held-out data.