MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation
作者: Weihao Xuan, Rui Yang, Heli Qi, Qingcheng Zeng, Yunze Xiao, Aosong Feng, Dairui Liu, Yun Xing, Junjue Wang, Fan Gao, Jinghui Lu, Yuang Jiang, Huitao Li, Xin Li, Kunyu Yu, Ruihai Dong, Shangding Gu, Yuekang Li, Xiaofei Xie, Felix Juefei-Xu, Foutse Khomh, Osamu Yoshie, Qingyu Chen, Douglas Teodoro, Nan Liu, Randy Goebel, Lei Ma, Edison Marrese-Taylor, Shijian Lu, Yusuke Iwasawa, Yutaka Matsuo, Irene Li
分类: cs.CL
发布日期: 2025-03-13 (更新: 2025-05-26)
💡 一句话要点
提出MMLU-ProX多语言基准,用于全面评估大型语言模型的跨语言推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言评估 大型语言模型 跨语言推理 基准数据集 低资源语言
📋 核心要点
- 现有LLM评估基准侧重英语,多语言任务缺乏评估跨语言推理的并行问题。
- MMLU-ProX构建包含29种语言的基准,每个语言版本包含相同的题目,便于跨语言比较。
- 评估结果显示LLM在高资源语言表现良好,但在低资源语言中性能显著下降。
📝 摘要(中文)
现有的大型语言模型(LLM)评估基准主要集中在英语上,而当前的多语言任务缺乏专门评估跨语言推理能力的并行问题。这种双重限制使得全面评估LLM在多语言环境中的性能具有挑战性。为了填补这一空白,我们推出了MMLU-ProX,这是一个全面的基准,涵盖29种语言,建立在英语基准之上。每个语言版本包含11,829个相同的问题,可以直接进行跨语言比较。此外,为了满足高效评估的需求,我们提供了一个包含每种语言658个问题的精简版。为了确保MMLU-ProX的高质量,我们采用了一个严格的开发过程,包括使用多个强大的LLM进行翻译,然后由专家审查以确保准确的表达、一致的术语和文化相关性。在此基础上,我们系统地评估了36个最先进的LLM,包括推理增强型和多语言优化型LLM。结果表明,LLM的多语言能力存在显著差异:虽然它们在高资源语言中表现良好,但在低资源语言中的表现明显下降,差距高达24.3%。通过MMLU-ProX,我们旨在推进更具包容性的人工智能系统的开发,并促进在全球范围内公平地获取技术。
🔬 方法详解
问题定义:现有的大型语言模型评估基准主要集中在英语,缺乏对跨语言推理能力的有效评估。现有的多语言基准通常不具备并行问题,难以直接比较不同语言下的模型性能。这使得我们难以全面了解LLM在不同语言环境下的真实能力,尤其是在低资源语言中。
核心思路:MMLU-ProX的核心思路是构建一个多语言的、并行的基准数据集,该数据集在多种语言中包含相同的问题,从而能够直接比较LLM在不同语言下的表现。通过对英语基准进行翻译和专家校对,确保不同语言版本的问题在语义上保持一致,从而实现公平的跨语言评估。
技术框架:MMLU-ProX的构建流程主要包括以下几个阶段:1) 选择英语基准数据集(MMLU);2) 使用多个强大的LLM进行自动翻译,将英语问题翻译成29种目标语言;3) 聘请语言专家对翻译结果进行审查和校对,确保翻译的准确性、一致性和文化相关性;4) 构建完整版(11,829个问题)和精简版(658个问题)两个版本,以满足不同评估需求。
关键创新:MMLU-ProX的关键创新在于其并行性和多语言覆盖范围。它提供了一个统一的框架,用于评估LLM在多种语言下的推理能力,并允许直接比较不同语言之间的性能差异。此外,该基准的构建过程注重翻译质量和文化适应性,确保评估结果的可靠性和有效性。
关键设计:在翻译过程中,使用了多个LLM进行集成翻译,以提高翻译质量。专家审查过程包括对术语一致性、语法准确性和文化相关性的检查。为了方便评估,提供了完整版和精简版两个版本,精简版通过抽样保证了问题分布与完整版一致。评估指标主要采用准确率,用于衡量模型在每个语言上的表现。
🖼️ 关键图片
📊 实验亮点
对36个先进LLM的评估结果显示,模型在高资源语言上表现良好,但在低资源语言上性能显著下降,差距高达24.3%。这表明现有LLM在多语言能力方面仍有很大的提升空间,尤其是在低资源语言的处理上。MMLU-ProX能够有效揭示这些差距,为未来的研究提供指导。
🎯 应用场景
MMLU-ProX可用于评估和比较不同LLM的多语言能力,指导模型训练和优化,提升LLM在低资源语言上的性能。该基准有助于开发更具包容性的人工智能系统,促进全球范围内公平地获取技术,并推动多语言自然语言处理研究的发展。
📄 摘要(原文)
Existing large language model (LLM) evaluation benchmarks primarily focus on English, while current multilingual tasks lack parallel questions that specifically assess cross-linguistic reasoning abilities. This dual limitation makes it challenging to comprehensively assess LLMs' performance in the multilingual setting. To fill this gap, we introduce MMLU-ProX, a comprehensive benchmark covering 29 languages, built on an English benchmark. Each language version consists of 11,829 identical questions, enabling direct cross-linguistic comparisons. Additionally, to meet efficient evaluation needs, we provide a lite version containing 658 questions per language. To ensure the high quality of MMLU-ProX, we employ a rigorous development process that involves multiple powerful LLMs for translation, followed by expert review to ensure accurate expression, consistent terminology, and cultural relevance. Building on this, we systematically evaluate 36 state-of-the-art LLMs, including reasoning-enhanced and multilingual-optimized LLMs. The results reveal significant disparities in the multilingual capabilities of LLMs: While they perform well in high-resource languages, their performance declines markedly in low-resource languages, with gaps of up to 24.3%. Through MMLU-ProX, we aim to advance the development of more inclusive AI systems and promote equitable access to technology across global contexts.