Spanish and LLM Benchmarks: is MMLU Lost in Translation?

📄 arXiv: 2406.17789v1 📥 PDF

作者: Irene Plaza, Nina Melero, Cristina del Pozo, Javier Conde, Pedro Reviriego, Marina Mayor-Rocher, María Grandury

分类: cs.CL, cs.AI

发布日期: 2024-05-28


💡 一句话要点

揭示MMLU基准测试翻译陷阱:西班牙语场景下LLM性能评估的挑战与改进

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 基准测试 机器翻译 多语言评估 MMLU 西班牙语 翻译质量 LLM评估

📋 核心要点

  1. 现有LLM基准测试在非英语语言评估中依赖自动翻译,忽略了翻译质量对评估结果的潜在影响。
  2. 该研究通过将MMLU基准测试翻译成西班牙语,并分析LLM在翻译后的测试中的表现,揭示了翻译错误的影响。
  3. 实验结果表明,相当比例的错误答案源于翻译问题,强调了改进非英语基准测试翻译的必要性。

📝 摘要(中文)

大型语言模型(LLM)的评估是其持续改进的关键环节,为此已开发了许多基准测试来评估LLM在不同任务和主题上的性能。随着LLM在全球范围内的应用,使用英语以外的语言对其进行评估变得越来越重要。然而,大多数LLM基准测试只是使用自动化工具进行简单翻译,然后在目标语言中运行。这意味着结果不仅取决于LLM在该语言中的性能,还取决于翻译的质量。本文以著名的Massive Multitask Language Understanding(MMLU)基准测试为例,使用Azure Translator和ChatGPT4将该基准测试的选定类别翻译成西班牙语,并在ChatGPT4上运行。接下来,处理结果以识别在西班牙语和英语中产生不同答案的测试项。然后手动分析这些项目,以了解自动翻译是否导致了这种变化。结果表明,相当一部分失败的项目可以归因于基准测试翻译中的错误。这些结果有力地证明了,至少应该通过修订项目的翻译来改进英语以外语言的基准测试,最好是由专家将测试调整到目标语言。

🔬 方法详解

问题定义:论文旨在解决LLM在非英语环境下的评估问题,特别是当使用机器翻译将现有英语基准测试(如MMLU)翻译成其他语言时,翻译质量对LLM性能评估的潜在影响。现有方法直接依赖自动翻译,忽略了翻译错误可能导致的评估偏差,从而无法准确反映LLM在目标语言中的真实能力。

核心思路:核心思路是通过将MMLU基准测试的一部分翻译成西班牙语,然后比较LLM在原始英语版本和翻译后的西班牙语版本上的表现差异。通过人工分析这些差异,确定有多少错误可以归因于翻译质量问题。这种方法旨在量化翻译质量对LLM评估结果的影响,并强调改进非英语基准测试翻译的必要性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择MMLU基准测试的特定类别;2) 使用Azure Translator和ChatGPT4将这些类别翻译成西班牙语;3) 在ChatGPT4上运行原始英语版本和翻译后的西班牙语版本;4) 比较两个版本的结果,识别产生不同答案的测试项;5) 人工分析这些测试项,判断差异是否由翻译错误引起。

关键创新:该研究的关键创新在于它直接关注了机器翻译对LLM基准测试结果的影响,并提供了一个量化这种影响的方法。通过人工分析,研究揭示了相当一部分错误答案可以归因于翻译质量问题,这挑战了直接使用机器翻译进行跨语言LLM评估的常见做法。

关键设计:关键设计包括:1) 使用两种不同的机器翻译引擎(Azure Translator和ChatGPT4)以减少单一翻译引擎的偏差;2) 人工分析差异答案以确定翻译错误是否是根本原因;3) 选择ChatGPT4作为评估LLM,因为它在西班牙语中表现良好,从而减少了LLM本身能力不足的影响。

🖼️ 关键图片

fig_0

📊 实验亮点

研究表明,在MMLU基准测试的西班牙语翻译版本中,相当一部分(具体比例未知,原文未给出明确数据)的错误答案可以归因于翻译错误。这表明直接使用机器翻译进行跨语言LLM评估可能导致性能评估的偏差,并强调了改进非英语基准测试翻译的必要性。

🎯 应用场景

该研究成果可应用于改进多语言LLM的评估方法,尤其是在资源匮乏的语言中。通过更准确地评估LLM在不同语言中的能力,可以促进LLM在全球范围内的更广泛应用,并确保其在不同文化背景下的有效性和可靠性。此外,该研究也为开发更有效的机器翻译评估方法提供了思路。

📄 摘要(原文)

The evaluation of Large Language Models (LLMs) is a key element in their continuous improvement process and many benchmarks have been developed to assess the performance of LLMs in different tasks and topics. As LLMs become adopted worldwide, evaluating them in languages other than English is increasingly important. However, most LLM benchmarks are simply translated using an automated tool and then run in the target language. This means that the results depend not only on the LLM performance in that language but also on the quality of the translation. In this paper, we consider the case of the well-known Massive Multitask Language Understanding (MMLU) benchmark. Selected categories of the benchmark are translated into Spanish using Azure Translator and ChatGPT4 and run on ChatGPT4. Next, the results are processed to identify the test items that produce different answers in Spanish and English. Those are then analyzed manually to understand if the automatic translation caused the change. The results show that a significant fraction of the failing items can be attributed to mistakes in the translation of the benchmark. These results make a strong case for improving benchmarks in languages other than English by at least revising the translations of the items and preferably by adapting the tests to the target language by experts.