MAPS: A Multilingual Benchmark for Global Agent Performance and Security

📄 arXiv: 2505.15935v2 📥 PDF

作者: Omer Hofman, Jonathan Brokman, Oren Rachmil, Shamik Bose, Vikas Pahuja, Toshiya Shimizu, Trisha Starostina, Kelly Marchisio, Seraphina Goldfarb-Tarrant, Roman Vainshtein

分类: cs.DB, cs.CL, cs.CR

发布日期: 2025-05-21 (更新: 2025-08-13)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

MAPS:一个用于评估多语言环境下Agent性能与安全性的基准测试套件

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 多语言 基准测试 大型语言模型 安全性 性能评估 自然语言处理

📋 核心要点

  1. 现有Agentic AI基准测试主要集中在英语环境,忽略了多语言环境下的性能和安全性问题,限制了Agentic AI的广泛应用。
  2. MAPS通过将现有四个主流Agentic AI基准测试翻译成11种语言,构建了一个多语言基准测试套件,用于评估Agent在多语言环境下的性能和安全性。
  3. 实验结果表明,Agent在非英语语言环境下的性能和安全性均有所下降,且下降程度与翻译输入的数量相关,为多语言Agentic AI系统的开发提供了指导。

📝 摘要(中文)

Agentic AI系统,建立在大型语言模型(LLMs)之上,并与工具和记忆互动,其能力和范围迅速发展。然而,由于LLM在多语言环境中表现不佳,通常导致性能下降和安全性降低,agentic系统也面临着继承这些局限性的风险。这引发了人们对这类系统可访问性的担忧,因为使用英语以外语言的用户可能会遇到不可靠或具有安全风险的agent行为。尽管人们对评估agentic AI的兴趣日益浓厚,但现有的基准测试仅关注英语,而忽略了多语言环境。为了解决这一差距,我们提出了MAPS,一个多语言基准测试套件,旨在评估agentic AI系统在不同语言和任务中的表现。MAPS建立在四个广泛使用的agentic基准测试之上——GAIA(现实世界任务)、SWE-bench(代码生成)、MATH(数学推理)和Agent Security Benchmark(安全性)。我们将每个数据集翻译成十一种不同的语言,从而产生了805个独特的任务和9,660个特定于语言的实例——从而能够系统地分析多语言效应对AI agent性能和鲁棒性的影响。经验表明,当从英语过渡到其他语言时,性能和安全性都会下降,其严重程度因任务而异,并且与翻译输入的数量相关。基于这些发现,我们提供了可操作的建议,以指导多语言环境下的agentic AI系统开发和评估。这项工作建立了第一个用于多语言agentic AI的标准化评估框架,鼓励未来研究朝着公平、可靠和可访问的agentic AI发展。MAPS基准测试套件可在https://huggingface.co/datasets/Fujitsu-FRE/MAPS公开获取。

🔬 方法详解

问题定义:现有Agentic AI系统的评估主要集中在英语环境,忽略了多语言环境下的性能和安全性问题。大型语言模型在多语言环境下表现不佳,导致Agentic AI系统在处理非英语任务时可能出现性能下降和安全漏洞。因此,需要一个多语言基准测试来全面评估Agentic AI系统在不同语言环境下的表现。

核心思路:论文的核心思路是构建一个多语言的Agentic AI基准测试套件,通过将现有的英语基准测试翻译成多种语言,来评估Agentic AI系统在不同语言环境下的性能和安全性。这种方法可以系统地分析多语言效应对Agentic AI系统性能和鲁棒性的影响,并为多语言Agentic AI系统的开发提供指导。

技术框架:MAPS基准测试套件构建在四个广泛使用的Agentic AI基准测试之上:GAIA(现实世界任务)、SWE-bench(代码生成)、MATH(数学推理)和Agent Security Benchmark(安全性)。每个数据集都被翻译成十一种不同的语言,包括阿拉伯语、中文、法语、德语、印地语、日语、韩语、葡萄牙语、俄语、西班牙语和越南语。这产生了805个独特的任务和9,660个特定于语言的实例。评估流程包括将翻译后的任务输入Agentic AI系统,并根据预定义的指标评估其性能和安全性。

关键创新:MAPS的主要创新在于它是第一个用于多语言Agentic AI的标准化评估框架。它通过系统地将现有基准测试翻译成多种语言,提供了一个全面的评估平台,可以分析多语言效应对Agentic AI系统性能和鲁棒性的影响。与现有仅关注英语环境的基准测试相比,MAPS更具通用性和实用性,可以更好地反映Agentic AI系统在实际应用中的表现。

关键设计:MAPS的关键设计包括选择具有代表性的Agentic AI基准测试,并将其翻译成多种不同的语言。翻译过程需要保证翻译的准确性和一致性,以避免引入额外的偏差。此外,MAPS还定义了一系列评估指标,用于衡量Agentic AI系统在不同语言环境下的性能和安全性。这些指标包括任务完成率、准确率、安全漏洞数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Agentic AI系统在非英语语言环境下的性能和安全性均有所下降。例如,在某些任务中,Agent的性能下降了20%以上。此外,研究还发现,性能下降的程度与翻译输入的数量相关,表明多语言环境对Agent的性能有显著影响。这些结果强调了多语言评估的重要性,并为多语言Agentic AI系统的开发提供了有价值的见解。

🎯 应用场景

MAPS基准测试套件可用于评估和改进多语言Agentic AI系统,例如多语言客户服务机器人、跨语言信息检索系统和全球软件开发助手。通过使用MAPS,开发者可以识别和解决Agentic AI系统在不同语言环境下的性能瓶颈和安全漏洞,从而提高系统的可靠性、安全性和可访问性,促进Agentic AI技术在全球范围内的应用。

📄 摘要(原文)

Agentic AI systems, which build on Large Language Models (LLMs) and interact with tools and memory, have rapidly advanced in capability and scope. Yet, since LLMs have been shown to struggle in multilingual settings, typically resulting in lower performance and reduced safety, agentic systems risk inheriting these limitations. This raises concerns about the accessibility of such systems, as users interacting in languages other than English may encounter unreliable or security-critical agent behavior. Despite growing interest in evaluating agentic AI, existing benchmarks focus exclusively on English, leaving multilingual settings unexplored. To address this gap, we propose MAPS, a multilingual benchmark suite designed to evaluate agentic AI systems across diverse languages and tasks. MAPS builds on four widely used agentic benchmarks - GAIA (real-world tasks), SWE-bench (code generation), MATH (mathematical reasoning), and the Agent Security Benchmark (security). We translate each dataset into eleven diverse languages, resulting in 805 unique tasks and 9,660 total language-specific instances - enabling a systematic analysis of the multilingual effect on AI agents' performance and robustness. Empirically, we observe degradation in both performance and security when transitioning from English to other languages, with severity varying by task and correlating with the amount of translated input. Building on these findings, we provide actionable recommendations to guide agentic AI systems development and assessment under multilingual settings. This work establishes the first standardized evaluation framework for multilingual agentic AI, encouraging future research towards equitable, reliable, and accessible agentic AI. MAPS benchmark suite is publicly available at https://huggingface.co/datasets/Fujitsu-FRE/MAPS