MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models

📄 arXiv: 2410.17578v2 📥 PDF

作者: Guijin Son, Dongkeun Yoon, Juyoung Suk, Javier Aula-Blasco, Mano Aslan, Vu Trong Kim, Shayekh Bin Islam, Jaume Prats-Cristià, Lucía Tormo-Bañuelos, Seungone Kim

分类: cs.CL

发布日期: 2024-10-23 (更新: 2025-03-29)

备注: work in progress


💡 一句话要点

提出MM-Eval多语言元评估基准,用于评估LLM作为裁判和奖励模型在多语言环境下的表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 大型语言模型 元评估基准 语言一致性 公平性 低资源语言 LLM评估器

📋 核心要点

  1. 现有元评估基准主要集中在英语,缺乏对多语言LLM输出评估能力的全面考察,尤其是在低资源语言方面。
  2. MM-Eval基准专门设计用于评估LLM作为裁判和奖励模型在多语言环境下的表现,侧重于多语言特定挑战。
  3. 实验结果表明,现有评估器LLM在评估非英语输出时仍有改进空间,且在评估低资源语言时存在不公平和不一致现象。

📝 摘要(中文)

随着大型语言模型(LLMs)现在能够生成除英语之外的其他语言的流畅且连贯的内容,精确评估这些非英语输出至关重要。然而,在评估多语言LLM的输出时,先前的工作通常采用擅长评估英语输出的基于LLM的评估器,而没有彻底检查这些评估器是否也能有效地评估非英语文本。此外,现有的用于测试评估器LLM的基准(称为“元评估基准”)大多以英语为中心。为了弥合这一差距并检查评估器LLM是否可以可靠地评估多语言LLM的输出,我们引入了MM-Eval,这是一个多语言元评估基准,包含五个核心子集,涵盖18种语言和一个跨越122种语言的语言一致性子集。MM-Eval的一个核心属性是,它并非仅仅翻译现有的英语元评估基准,而是考虑到多语言特定的挑战而设计的。此外,与现有仅关注成对数据排序准确性的元评估基准不同,MM-Eval还评估了各种语言中绝对分数值的一致性和公平性。我们的结果表明,在英语环境中表现出色的现有评估器LLM在评估非英语输出时仍有很大的改进空间。此外,我们发现评估器在评估低资源语言时是不公平和不一致的。最后,我们通过测量MM-Eval与Best-of-N排序的相关性来验证它,发现与其他元评估基准相比,相关性明显更强。我们公开发布我们的基准和代码。

🔬 方法详解

问题定义:论文旨在解决现有元评估基准主要以英语为中心,无法有效评估多语言LLM输出的问题。现有方法直接将英语元评估基准翻译成其他语言,忽略了多语言环境下的特定挑战,并且缺乏对评估器在不同语言之间一致性和公平性的考量。

核心思路:论文的核心思路是构建一个专门为多语言环境设计的元评估基准MM-Eval。该基准不仅包含多种语言,而且针对多语言评估的特殊挑战进行了优化,例如语言一致性和对低资源语言的公平性。通过MM-Eval,可以更准确地评估LLM作为裁判和奖励模型在多语言环境下的表现。

技术框架:MM-Eval包含五个核心子集,涵盖18种语言,以及一个跨越122种语言的语言一致性子集。这些子集的设计考虑了多语言评估的特殊挑战。基准测试不仅评估排序准确性,还评估绝对分数值的一致性和公平性。整体流程包括:1) 构建多语言数据集,2) 使用LLM评估器对数据集进行评估,3) 使用MM-Eval基准评估LLM评估器的性能,4) 分析评估结果并识别改进方向。

关键创新:MM-Eval的关键创新在于其多语言特定设计。它不是简单地翻译现有的英语基准,而是针对多语言评估的挑战进行了专门设计。此外,MM-Eval不仅评估排序准确性,还评估绝对分数值的一致性和公平性,这使得它能够更全面地评估LLM评估器的性能。

关键设计:MM-Eval的关键设计包括:1) 针对不同语言选择合适的评估指标,2) 设计能够反映多语言特定挑战的评估任务,3) 采用合适的统计方法来评估评估器的一致性和公平性。具体参数设置和损失函数取决于所使用的LLM评估器。论文中没有详细说明具体的网络结构,但强调了评估指标和任务设计的关键性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有在英语环境中表现出色的评估器LLM在评估非英语输出时仍有很大的改进空间。尤其是在评估低资源语言时,评估器表现出不公平和不一致性。MM-Eval与Best-of-N排序的相关性明显强于其他元评估基准,验证了其有效性。

🎯 应用场景

该研究成果可应用于多语言LLM的开发和评估,帮助开发者更好地了解其模型在不同语言环境下的表现。此外,MM-Eval基准可以用于改进LLM评估器的设计,使其能够更准确、更公平地评估多语言文本。这对于构建可靠的多语言AI系统至关重要。

📄 摘要(原文)

As Large Language Models (LLMs) are now capable of producing fluent and coherent content in languages other than English, it is not imperative to precisely evaluate these non-English outputs. However, when assessing the outputs from mutlilingual LLMs, prior works often employed LLM based evaluators that excel at assessing English outputs, without a thorough examination of whether these evaluators could effectively assess non-English text as well. Moreover, existing benchmarks to test evaluator LLMs (referred to as "meta-evaluation benchmarks") are mostly English-centric. To bridge this gap and examine whether evaluator LLMs can reliably assess the outputs of multilingual LLMs, we introduce MM-Eval, a multilingual meta-evaluation benchmark comprising five core subsets covering 18 languages and a Language Consistency subset spanning 122 languages. A core attribute of MM-Eval is that, instead of merely translating existing English meta-evaluation benchmarks, it is designed with multilingual-specific challenges in mind. Additionally, unlike existing meta-evaluation benchmarks that focus solely on ranking accuracy over pairwise data, MM-Eval also evaluates the consistency and fairness of absolute score values across a wide range of languages. Our results show that existing evaluator LLMs that excel in English contexts have considerable room for improvement when assessing non-English outputs. Furthermore, we find that evaluators are unfair and inconsistent when evaluating lower-resourced languages. Finally, we validate MM-Eval by measuring its correlation with Best-of-N rankings, finding a significantly stronger correlation compared to other meta-evaluation benchmarks. We publicly release our benchmark and code.