MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

📄 arXiv: 2505.14395v2 📥 PDF

作者: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-09-19)

备注: To appear in Findings of EMNLP 2025

DOI: 10.18653/v1/2025.findings-emnlp.1061


💡 一句话要点

MUG-Eval:提出一种与语言无关的代理评估框架,用于评估任意语言的大语言模型生成能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言生成 大语言模型评估 低资源语言 对话任务 代理评估 语言无关 基准测试

📋 核心要点

  1. 现有方法在评估低资源语言的大语言模型生成能力时面临数据稀缺和依赖特定语言工具的挑战。
  2. MUG-Eval通过将现有基准转换为对话任务,并以任务成功率作为代理指标,评估LLM的多语言生成能力。
  3. 实验结果表明,MUG-Eval与现有基准高度相关(r > 0.75),并能实现跨语言和模型的标准化比较。

📝 摘要(中文)

评估大型语言模型(LLMs)的文本生成能力极具挑战性,尤其是在低资源语言中,直接评估方法稀缺。我们提出了MUG-Eval,一种新颖的框架,通过将现有基准转换为对话任务并测量LLMs在这些任务上的准确性,来评估LLMs的多语言生成能力。我们专门设计了这些对话任务,以要求在目标语言中进行有效的沟通。然后,我们简单地使用任务成功率作为成功对话生成的代理。我们的方法提供了两个关键优势:它独立于特定于语言的NLP工具或带注释的数据集(这些数据集对于大多数语言都是有限的),并且它不依赖于LLMs-as-judges,后者的评估质量在少数高资源语言之外会下降。我们评估了跨越高、中、低资源类别的30种语言的8个LLM,我们发现MUG-Eval与已建立的基准密切相关(r > 0.75),同时实现了跨语言和模型的标准化比较。我们的框架为评估多语言生成提供了一个强大且资源高效的解决方案,可以扩展到数千种语言。

🔬 方法详解

问题定义:现有的大语言模型评估方法,尤其是在多语言场景下,面临着低资源语言数据稀缺的问题。此外,很多评估方法依赖于特定语言的NLP工具或人工标注数据集,这限制了其在大量语言上的应用。同时,使用LLM作为评判者的方法,其评估质量在高资源语言之外会显著下降。因此,如何设计一种通用的、与语言无关的评估框架,成为一个亟待解决的问题。

核心思路:MUG-Eval的核心思路是将现有的评估基准转换为对话任务,并通过衡量LLM在这些对话任务上的成功率来评估其多语言生成能力。这种方法的核心在于,成功的对话生成需要LLM具备在目标语言中有效沟通的能力,因此任务成功率可以作为衡量LLM生成质量的代理指标。通过这种转换,可以避免直接依赖于特定语言的NLP工具和标注数据。

技术框架:MUG-Eval框架主要包含以下几个阶段:1) 基准任务转换:将现有的评估基准(例如,阅读理解、问答等)转换为对话形式的任务。2) 对话任务生成:根据转换后的任务,生成一系列需要LLM完成的对话。3) 模型推理:将生成的对话输入到待评估的LLM中,得到LLM的回复。4) 任务成功率计算:根据LLM的回复,判断其是否成功完成了对话任务,并计算任务成功率。该成功率作为LLM多语言生成能力的评估指标。

关键创新:MUG-Eval的关键创新在于其与语言无关的评估方式。它不依赖于特定语言的NLP工具或标注数据,而是通过将现有基准转换为对话任务,并以任务成功率作为代理指标,实现了对LLM多语言生成能力的评估。这种方法避免了在低资源语言上数据稀缺的问题,并提供了一种通用的评估框架。

关键设计:MUG-Eval的关键设计在于对话任务的构建。论文设计了一系列需要有效沟通的对话任务,例如,要求LLM在特定语言中进行提问、回答问题、提供建议等。任务成功率的计算方式也需要根据具体的任务类型进行设计,例如,可以采用基于规则的匹配、语义相似度计算等方法来判断LLM的回复是否正确。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MUG-Eval与现有的多语言基准测试具有很强的相关性(r > 0.75),证明了其作为多语言生成能力评估代理的有效性。该框架成功评估了8个LLM在30种语言上的表现,涵盖了高、中、低资源类别,并实现了跨语言和模型的标准化比较。这些结果表明MUG-Eval是一种稳健且资源高效的评估解决方案。

🎯 应用场景

MUG-Eval可广泛应用于评估和比较不同大语言模型在各种语言上的生成能力,尤其是在低资源语言环境中。该框架有助于开发者选择最适合特定语言或任务的模型,并促进多语言LLM的开发和改进。此外,MUG-Eval还可用于评估LLM在跨语言场景下的表现,例如机器翻译和跨语言信息检索。

📄 摘要(原文)

Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy for successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks ($r$ > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.