Arabic Prompts with English Tools: A Benchmark

作者: Konstantin Kubrak, Ahmed El-Moselhy, Ammar Alsulami, Remaz Altuwaim, Hassan Ismail Fawaz, Faisal Alsaby

分类: cs.AI

发布日期: 2026-01-08

备注: 10 pages, 10 figures, LLMs, Big Data, and Multilinguality for All (LLMs4All) Workshop at IEEE BigData 2025 Conference, Macau, December 10, 2025

💡 一句话要点

提出Arabic Tool-Calling基准，评估阿拉伯语提示下LLM的工具调用能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具调用 阿拉伯语 基准测试 多语言处理

📋 核心要点

现有LLM基准测试主要集中在英语，缺乏对阿拉伯语等非英语语言工具调用能力的有效评估。
论文提出一个专门针对阿拉伯语的工具调用基准，用于评估LLM在阿拉伯语环境下的代理能力。
实验表明，即使工具描述使用英语，阿拉伯语提示也会导致工具调用准确率显著下降。

📝 摘要（中文）

大型语言模型（LLMs）已广泛应用于各个行业，并日益成为自主代理执行复杂任务的核心推理引擎。虽然阿拉伯语原生LLM的发展正在加速，但评估其能力的基准测试却相对滞后，现有框架大多侧重于英语。工具调用是一个关键但被忽视的领域，模型在阿拉伯语等非英语语言提示下的性能尚不明确，尤其是在这些模型通常以英语数据进行预训练的情况下。本文通过引入首个专门用于评估LLM在阿拉伯语中的工具调用和代理能力的基准，来解决这一关键差距。该基准提供了一个标准化框架，用于衡量模型在阿拉伯语代理工作流程中的功能准确性和鲁棒性。研究结果表明存在巨大的性能差距：当用户以阿拉伯语交互时，工具调用准确率平均下降5-10%，无论工具描述本身是阿拉伯语还是英语。通过揭示这些关键挑战，该基准旨在促进为阿拉伯语用户开发更可靠和语言公平的AI代理。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在处理阿拉伯语提示时，工具调用能力不足的问题。现有方法主要针对英语环境，缺乏对阿拉伯语等非英语语言的有效评估和优化。这导致阿拉伯语用户在使用LLM工具时，体验和性能显著下降。

核心思路：论文的核心思路是构建一个专门针对阿拉伯语的工具调用基准测试。通过该基准，可以系统地评估LLM在阿拉伯语提示下的工具调用准确性和鲁棒性，从而发现模型在处理阿拉伯语时的不足之处，并为后续的优化提供指导。

技术框架：该基准测试框架包含以下主要模块：1) 阿拉伯语提示生成模块：用于生成各种类型的阿拉伯语提示，覆盖不同的工具调用场景。2) 工具描述模块：提供工具的阿拉伯语和英语描述，以便评估不同语言描述对性能的影响。3) LLM调用模块：将阿拉伯语提示和工具描述输入到待评估的LLM中。4) 评估模块：评估LLM的工具调用准确性和鲁棒性，并生成详细的评估报告。

关键创新：该论文的关键创新在于构建了首个专门针对阿拉伯语的工具调用基准测试。该基准不仅填补了现有基准测试的空白，而且提供了一个标准化的框架，用于评估和比较不同LLM在处理阿拉伯语时的工具调用能力。

关键设计：基准测试的设计考虑了以下关键因素：1) 提示的多样性：提示覆盖了不同的工具调用场景和语言风格，以全面评估LLM的性能。2) 工具描述的语言：工具描述同时提供阿拉伯语和英语版本，以便评估不同语言描述对性能的影响。3) 评估指标的全面性：评估指标包括工具调用准确率、鲁棒性等，以全面评估LLM的性能。

📊 实验亮点

实验结果表明，当用户以阿拉伯语交互时，工具调用准确率平均下降5-10%，无论工具描述本身是阿拉伯语还是英语。这一结果揭示了现有LLM在处理阿拉伯语提示时存在的显著性能差距，强调了构建阿拉伯语专用基准测试的重要性。

🎯 应用场景

该研究成果可应用于开发更可靠和语言公平的阿拉伯语AI代理，提升阿拉伯语用户在使用LLM工具时的体验。该基准测试可以促进阿拉伯语原生LLM的发展，并推动AI技术在阿拉伯语地区的普及和应用。未来，该研究可以扩展到其他非英语语言，构建更全面的多语言工具调用基准。

📄 摘要（原文）

Large Language Models (LLMs) are now integral to numerous industries, increasingly serving as the core reasoning engine for autonomous agents that perform complex tasks through tool-use. While the development of Arabic-native LLMs is accelerating, the benchmarks for evaluating their capabilities lag behind, with most existing frameworks focusing on English. A critical and overlooked area is tool-calling, where the performance of models prompted in non-English languages like Arabic is poorly understood, especially since these models are often pretrained on predominantly English data. This paper addresses this critical gap by introducing the first dedicated benchmark for evaluating the tool-calling and agentic capabilities of LLMs in the Arabic language. Our work provides a standardized framework to measure the functional accuracy and robustness of models in Arabic agentic workflows. Our findings reveal a huge performance gap: when users interact in Arabic, tool-calling accuracy drops by an average of 5-10\%, regardless of whether the tool descriptions themselves are in Arabic or English. By shedding light on these critical challenges, this benchmark aims to foster the development of more reliable and linguistically equitable AI agents for Arabic-speaking users.

Arabic Prompts with English Tools: A Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册