MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models

作者: Guijin Son, Dongkeun Yoon, Juyoung Suk, Javier Aula-Blasco, Mano Aslan, Vu Trong Kim, Shayekh Bin Islam, Jaume Prats-Cristià, Lucía Tormo-Bañuelos, Seungone Kim

分类: cs.CL

发布日期: 2024-10-23 (更新: 2025-03-29)

备注: work in progress

💡 一句话要点

提出MM-Eval多语言元评估基准，用于评估LLM作为裁判和奖励模型在多语言环境下的表现。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 大型语言模型 元评估基准 语言一致性 公平性 低资源语言 LLM评估器

📋 核心要点

现有元评估基准主要集中在英语，缺乏对多语言LLM输出评估能力的全面考察，尤其是在低资源语言方面。
MM-Eval基准专门设计用于评估LLM作为裁判和奖励模型在多语言环境下的表现，侧重于多语言特定挑战。
实验结果表明，现有评估器LLM在评估非英语输出时仍有改进空间，且在评估低资源语言时存在不公平和不一致现象。

📝 摘要（中文）

随着大型语言模型(LLMs)现在能够生成除英语之外的其他语言的流畅且连贯的内容，精确评估这些非英语输出至关重要。然而，在评估多语言LLM的输出时，先前的工作通常采用擅长评估英语输出的基于LLM的评估器，而没有彻底检查这些评估器是否也能有效地评估非英语文本。此外，现有的用于测试评估器LLM的基准（称为“元评估基准”）大多以英语为中心。为了弥合这一差距并检查评估器LLM是否可以可靠地评估多语言LLM的输出，我们引入了MM-Eval，这是一个多语言元评估基准，包含五个核心子集，涵盖18种语言和一个跨越122种语言的语言一致性子集。MM-Eval的一个核心属性是，它并非仅仅翻译现有的英语元评估基准，而是考虑到多语言特定的挑战而设计的。此外，与现有仅关注成对数据排序准确性的元评估基准不同，MM-Eval还评估了各种语言中绝对分数值的一致性和公平性。我们的结果表明，在英语环境中表现出色的现有评估器LLM在评估非英语输出时仍有很大的改进空间。此外，我们发现评估器在评估低资源语言时是不公平和不一致的。最后，我们通过测量MM-Eval与Best-of-N排序的相关性来验证它，发现与其他元评估基准相比，相关性明显更强。我们公开发布我们的基准和代码。

🔬 方法详解

问题定义：论文旨在解决现有元评估基准主要以英语为中心，无法有效评估多语言LLM输出的问题。现有方法直接将英语元评估基准翻译成其他语言，忽略了多语言环境下的特定挑战，并且缺乏对评估器在不同语言之间一致性和公平性的考量。

核心思路：论文的核心思路是构建一个专门为多语言环境设计的元评估基准MM-Eval。该基准不仅包含多种语言，而且针对多语言评估的特殊挑战进行了优化，例如语言一致性和对低资源语言的公平性。通过MM-Eval，可以更准确地评估LLM作为裁判和奖励模型在多语言环境下的表现。

技术框架：MM-Eval包含五个核心子集，涵盖18种语言，以及一个跨越122种语言的语言一致性子集。这些子集的设计考虑了多语言评估的特殊挑战。基准测试不仅评估排序准确性，还评估绝对分数值的一致性和公平性。整体流程包括：1) 构建多语言数据集，2) 使用LLM评估器对数据集进行评估，3) 使用MM-Eval基准评估LLM评估器的性能，4) 分析评估结果并识别改进方向。

关键创新：MM-Eval的关键创新在于其多语言特定设计。它不是简单地翻译现有的英语基准，而是针对多语言评估的挑战进行了专门设计。此外，MM-Eval不仅评估排序准确性，还评估绝对分数值的一致性和公平性，这使得它能够更全面地评估LLM评估器的性能。

关键设计：MM-Eval的关键设计包括：1) 针对不同语言选择合适的评估指标，2) 设计能够反映多语言特定挑战的评估任务，3) 采用合适的统计方法来评估评估器的一致性和公平性。具体参数设置和损失函数取决于所使用的LLM评估器。论文中没有详细说明具体的网络结构，但强调了评估指标和任务设计的关键性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有在英语环境中表现出色的评估器LLM在评估非英语输出时仍有很大的改进空间。尤其是在评估低资源语言时，评估器表现出不公平和不一致性。MM-Eval与Best-of-N排序的相关性明显强于其他元评估基准，验证了其有效性。

🎯 应用场景

该研究成果可应用于多语言LLM的开发和评估，帮助开发者更好地了解其模型在不同语言环境下的表现。此外，MM-Eval基准可以用于改进LLM评估器的设计，使其能够更准确、更公平地评估多语言文本。这对于构建可靠的多语言AI系统至关重要。

📄 摘要（原文）

As Large Language Models (LLMs) are now capable of producing fluent and coherent content in languages other than English, it is not imperative to precisely evaluate these non-English outputs. However, when assessing the outputs from mutlilingual LLMs, prior works often employed LLM based evaluators that excel at assessing English outputs, without a thorough examination of whether these evaluators could effectively assess non-English text as well. Moreover, existing benchmarks to test evaluator LLMs (referred to as "meta-evaluation benchmarks") are mostly English-centric. To bridge this gap and examine whether evaluator LLMs can reliably assess the outputs of multilingual LLMs, we introduce MM-Eval, a multilingual meta-evaluation benchmark comprising five core subsets covering 18 languages and a Language Consistency subset spanning 122 languages. A core attribute of MM-Eval is that, instead of merely translating existing English meta-evaluation benchmarks, it is designed with multilingual-specific challenges in mind. Additionally, unlike existing meta-evaluation benchmarks that focus solely on ranking accuracy over pairwise data, MM-Eval also evaluates the consistency and fairness of absolute score values across a wide range of languages. Our results show that existing evaluator LLMs that excel in English contexts have considerable room for improvement when assessing non-English outputs. Furthermore, we find that evaluators are unfair and inconsistent when evaluating lower-resourced languages. Finally, we validate MM-Eval by measuring its correlation with Best-of-N rankings, finding a significantly stronger correlation compared to other meta-evaluation benchmarks. We publicly release our benchmark and code.

MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理