Arabic Prompts with English Tools: A Benchmark

📄 arXiv: 2601.05101v1 📥 PDF

作者: Konstantin Kubrak, Ahmed El-Moselhy, Ammar Alsulami, Remaz Altuwaim, Hassan Ismail Fawaz, Faisal Alsaby

分类: cs.AI

发布日期: 2026-01-08

备注: 10 pages, 10 figures, LLMs, Big Data, and Multilinguality for All (LLMs4All) Workshop at IEEE BigData 2025 Conference, Macau, December 10, 2025


💡 一句话要点

提出Arabic Prompts with English Tools基准,评估阿拉伯语提示下LLM的工具调用能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具调用 阿拉伯语 评估基准 代理能力

📋 核心要点

  1. 现有LLM评估基准主要集中于英语,忽略了非英语提示下,特别是阿拉伯语提示下工具调用能力的评估。
  2. 论文提出了Arabic Prompts with English Tools基准,用于标准化评估LLM在阿拉伯语环境中的工具调用和代理能力。
  3. 实验表明,使用阿拉伯语提示时,LLM的工具调用准确率显著下降,平均下降5-10%。

📝 摘要(中文)

大型语言模型(LLMs)已成为众多行业不可或缺的一部分,越来越多地作为自主代理的核心推理引擎,通过工具使用执行复杂任务。虽然阿拉伯语原生LLM的开发正在加速,但评估其能力的基准却滞后,现有框架大多侧重于英语。一个关键且被忽视的领域是工具调用,即以阿拉伯语等非英语语言提示的模型性能知之甚少,尤其因为这些模型通常在主要为英语的数据上进行预训练。本文通过引入首个专门用于评估LLM在阿拉伯语中的工具调用和代理能力的基准,来解决这一关键差距。我们的工作提供了一个标准化框架,用于衡量模型在阿拉伯语代理工作流程中的功能准确性和鲁棒性。我们的研究结果揭示了一个巨大的性能差距:当用户以阿拉伯语交互时,工具调用准确率平均下降5-10%,无论工具描述本身是阿拉伯语还是英语。通过揭示这些关键挑战,该基准旨在促进为阿拉伯语用户开发更可靠和语言公平的AI代理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理阿拉伯语提示时,工具调用能力不足的问题。现有评估基准主要针对英语,无法准确反映LLM在阿拉伯语环境下的性能。这导致了阿拉伯语用户在使用LLM工具时,体验和效果不佳。

核心思路:论文的核心思路是构建一个专门针对阿拉伯语提示的工具调用评估基准。通过设计一系列阿拉伯语提示和相应的工具调用任务,来衡量LLM在阿拉伯语环境下的工具调用准确性和鲁棒性。这样可以更真实地反映LLM在实际应用中的性能。

技术框架:该基准包含以下主要模块:1) 阿拉伯语提示生成模块:用于生成各种类型的阿拉伯语提示,包括问题、指令等。2) 工具调用模块:用于模拟LLM根据提示调用不同工具的过程。3) 评估模块:用于评估LLM工具调用的准确性、鲁棒性等指标。整个流程是:输入阿拉伯语提示 -> LLM进行工具调用 -> 评估模块评估调用结果。

关键创新:该基准的关键创新在于它是首个专门针对阿拉伯语提示的工具调用评估基准。它填补了现有评估体系的空白,为研究人员提供了一个评估LLM在阿拉伯语环境下工具调用能力的标准化平台。这有助于推动阿拉伯语LLM的发展和应用。

关键设计:基准的关键设计包括:1) 提示的多样性:提示涵盖了各种类型的问题和指令,以全面评估LLM的工具调用能力。2) 工具的实用性:选择的工具都是实际应用中常用的工具,例如搜索引擎、计算器等。3) 评估指标的全面性:评估指标包括准确率、鲁棒性等,以全面评估LLM的性能。

📊 实验亮点

实验结果表明,当用户使用阿拉伯语提示时,LLM的工具调用准确率平均下降5-10%,无论工具描述本身是阿拉伯语还是英语。这一结果揭示了现有LLM在处理非英语提示时存在的性能差距,强调了开发针对特定语言的评估基准的重要性。

🎯 应用场景

该研究成果可应用于开发更可靠、更公平的阿拉伯语AI代理,提升阿拉伯语用户在使用LLM工具时的体验。例如,可以应用于智能客服、智能助手等领域,为阿拉伯语用户提供更高效、更便捷的服务。未来,该基准可以扩展到其他非英语语言,促进多语言LLM的发展。

📄 摘要(原文)

Large Language Models (LLMs) are now integral to numerous industries, increasingly serving as the core reasoning engine for autonomous agents that perform complex tasks through tool-use. While the development of Arabic-native LLMs is accelerating, the benchmarks for evaluating their capabilities lag behind, with most existing frameworks focusing on English. A critical and overlooked area is tool-calling, where the performance of models prompted in non-English languages like Arabic is poorly understood, especially since these models are often pretrained on predominantly English data. This paper addresses this critical gap by introducing the first dedicated benchmark for evaluating the tool-calling and agentic capabilities of LLMs in the Arabic language. Our work provides a standardized framework to measure the functional accuracy and robustness of models in Arabic agentic workflows. Our findings reveal a huge performance gap: when users interact in Arabic, tool-calling accuracy drops by an average of 5-10\%, regardless of whether the tool descriptions themselves are in Arabic or English. By shedding light on these critical challenges, this benchmark aims to foster the development of more reliable and linguistically equitable AI agents for Arabic-speaking users.