Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models

📄 arXiv: 2507.11882v1 📥 PDF

作者: Bo Zeng, Chenyang Lyu, Sinuo Liu, Mingyan Zeng, Minghao Wu, Xuanfan Ni, Tianqi Shi, Yu Zhao, Yefeng Liu, Chenyu Zhu, Ruizhe Li, Jiahui Geng, Qing Li, Yu Tong, Longyue Wang, Weihua Luo, Kaifu Zhang

分类: cs.CL

发布日期: 2025-07-16

备注: ACL 2025 Main Conference paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出 Marco-Bench-MIF,用于评估大语言模型的多语言指令遵循能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言 指令遵循 大语言模型 评估基准 本地化 机器翻译 跨语言 自然语言处理

📋 核心要点

  1. 现有指令遵循数据集主要集中于英语或简单地进行机器翻译,缺乏对多语言环境的有效支持。
  2. Marco-Bench-MIF 通过混合流程,结合翻译和验证,解决语言和文化约束,实现更准确的多语言评估。
  3. 实验表明,不同语言之间存在显著性能差距,模型规模影响显著,且机器翻译数据低估了模型真实性能。

📝 摘要(中文)

指令遵循能力已成为评估大型语言模型(LLM)的一项主要能力。然而,现有的数据集,如IFEval,要么主要以英语为中心,要么简单地机器翻译成其他语言,限制了它们在多语言环境中的适用性。在本文中,我们提出了 IFEval 的一个精心策划的扩展,即本地化的多语言版本 Marco-Bench-MIF,涵盖 30 种具有不同本地化程度的语言。我们的基准通过结合翻译和验证的混合流程,解决了语言约束(例如,修改中文的大小写要求)和文化参考(例如,在提示中替换特定区域的公司名称)。通过对 Marco-Bench-MIF 上的 20 多个 LLM 进行全面评估,我们发现:(1)高/低资源语言之间存在 25-35% 的准确率差距,(2)模型规模在很大程度上影响性能,达到 45-60%,但仍然存在特定于脚本的挑战,以及(3)机器翻译的数据低估了 7-22% 的准确率(与本地化数据相比)。我们的分析确定了多语言指令遵循方面的挑战,包括关键词一致性保持和跨语言的组合约束遵守。我们的 Marco-Bench-MIF 可在 https://github.com/AIDC-AI/Marco-Bench-MIF 获取。

🔬 方法详解

问题定义:现有的大语言模型指令遵循能力评估数据集,如 IFEval,主要以英语为中心,或者简单地使用机器翻译扩展到其他语言。这导致了两个主要问题:一是忽略了不同语言的语言特性和文化差异,二是机器翻译的质量会影响评估结果的准确性。因此,需要一个更贴合实际多语言环境的指令遵循能力评估基准。

核心思路:Marco-Bench-MIF 的核心思路是构建一个本地化的多语言指令遵循评估基准。通过结合机器翻译和人工验证,确保数据集在不同语言中的语言质量和文化相关性。同时,针对不同语言的特点进行定制化处理,例如修改中文的大小写要求,替换特定区域的公司名称等,以提高评估的准确性。

技术框架:Marco-Bench-MIF 的构建流程包含以下几个主要阶段:1) 基于 IFEval 数据集进行初始翻译;2) 针对不同语言的语言特性和文化差异进行本地化修改;3) 通过人工验证确保翻译质量和本地化效果;4) 构建评估指标,用于评估大语言模型在不同语言上的指令遵循能力。

关键创新:Marco-Bench-MIF 的关键创新在于其本地化的多语言评估方法。它不仅仅是简单地将英文数据集翻译成其他语言,而是充分考虑了不同语言的语言特性和文化差异,并进行了相应的调整。这种本地化的方法可以更准确地评估大语言模型在多语言环境下的指令遵循能力。

关键设计:在 Marco-Bench-MIF 的构建过程中,关键的设计包括:1) 针对不同语言的本地化规则,例如中文的大小写规则;2) 文化相关的实体替换,例如将英文公司名称替换为当地公司名称;3) 人工验证流程,确保翻译质量和本地化效果;4) 评估指标的设计,用于衡量大语言模型在不同语言上的指令遵循能力,例如准确率、一致性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在 Marco-Bench-MIF 上对 20 多个 LLM 进行了评估,结果表明:高资源语言和低资源语言之间存在 25-35% 的准确率差距;模型规模对性能有显著影响,提升幅度达 45-60%;机器翻译的数据低估了 7-22% 的准确率(与本地化数据相比)。这些结果揭示了多语言指令遵循的挑战,并验证了 Marco-Bench-MIF 的有效性。

🎯 应用场景

Marco-Bench-MIF 可用于评估和提升大语言模型在多语言环境下的指令遵循能力,推动多语言大模型的研发。该基准可应用于机器翻译、跨语言信息检索、多语言对话系统等领域,促进人工智能技术在全球范围内的应用和发展。

📄 摘要(原文)

Instruction-following capability has become a major ability to be evaluated for Large Language Models (LLMs). However, existing datasets, such as IFEval, are either predominantly monolingual and centered on English or simply machine translated to other languages, limiting their applicability in multilingual contexts. In this paper, we present an carefully-curated extension of IFEval to a localized multilingual version named Marco-Bench-MIF, covering 30 languages with varying levels of localization. Our benchmark addresses linguistic constraints (e.g., modifying capitalization requirements for Chinese) and cultural references (e.g., substituting region-specific company names in prompts) via a hybrid pipeline combining translation with verification. Through comprehensive evaluation of 20+ LLMs on our Marco-Bench-MIF, we found that: (1) 25-35% accuracy gap between high/low-resource languages, (2) model scales largely impact performance by 45-60% yet persists script-specific challenges, and (3) machine-translated data underestimates accuracy by7-22% versus localized data. Our analysis identifies challenges in multilingual instruction following, including keyword consistency preservation and compositional constraint adherence across languages. Our Marco-Bench-MIF is available at https://github.com/AIDC-AI/Marco-Bench-MIF.