Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation

📄 arXiv: 2509.14477v1 📥 PDF

作者: Thales Sales Almeida, João Guilherme Alves Santos, Thiago Laitz, Giovana Kerche Bonás

分类: cs.CL

发布日期: 2025-09-17


💡 一句话要点

Ticket-Bench:多语言区域化Agent评估基准,提升真实场景任务性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 Agent评估 自然语言处理 大型语言模型 基准测试

📋 核心要点

  1. 现有Agent评估缺乏文化和语言多样性,依赖单语或简单翻译基准,无法真实反映多语言环境下的性能。
  2. Ticket-Bench通过模拟多语言足球票务购买场景,使用本地化数据,构建更真实的Agent评估基准。
  3. 实验结果表明,推理能力强的模型表现更优,但仍存在跨语言性能差异,凸显多语言基准的重要性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为面向任务的Agent,其成功取决于在真实的、多语言条件下生成准确函数调用的能力。然而,现有的Agent评估在很大程度上忽略了文化和语言的多样性,通常依赖于单语或简单翻译的基准。我们推出了Ticket-Bench,这是一个用于面向任务场景中多语言Agent评估的基准。Ticket-Bench模拟了六种主要语言(葡萄牙语、英语、西班牙语、德语、意大利语和法语)的足球票务购买领域,并使用本地化的球队、城市和用户资料,以提供更高程度的真实感。我们评估了各种商业和开源LLM,测量了跨语言的函数调用准确性和一致性。结果表明,以推理为导向的模型(例如,GPT-5、Qwen3-235B)在性能上占主导地位,但仍然表现出显著的跨语言差异。这些发现强调了需要具有文化意识的多语言基准来指导鲁棒LLM Agent的开发。

🔬 方法详解

问题定义:现有Agent评估基准主要集中在单语环境或简单翻译,忽略了文化和语言的细微差别,无法准确评估Agent在真实多语言场景下的性能。这导致Agent在实际应用中可能表现不佳,尤其是在需要理解和处理不同文化背景下用户需求的任务中。

核心思路:Ticket-Bench的核心思路是构建一个更贴近真实世界的多语言Agent评估基准。通过模拟足球票务购买场景,并使用本地化的球队、城市和用户资料,Ticket-Bench旨在创建一个更具挑战性和代表性的评估环境,从而更准确地评估Agent在多语言环境下的性能。

技术框架:Ticket-Bench的技术框架主要包括以下几个部分:1) 场景定义:定义足球票务购买的领域知识,包括球队、城市、比赛信息等。2) 数据生成:生成六种主要语言(葡萄牙语、英语、西班牙语、德语、意大利语和法语)的对话数据,并确保数据的本地化和文化相关性。3) 评估指标:定义函数调用准确性和一致性等评估指标,用于衡量Agent的性能。4) 模型评估:使用各种商业和开源LLM进行评估,并分析其在不同语言下的性能差异。

关键创新:Ticket-Bench的关键创新在于其对多语言和区域化Agent评估的关注。与现有基准相比,Ticket-Bench更加注重文化和语言的多样性,并使用本地化的数据来模拟真实世界的场景。这使得Ticket-Bench能够更准确地评估Agent在多语言环境下的性能,并为开发更鲁棒的LLM Agent提供指导。

关键设计:Ticket-Bench的关键设计包括:1) 语言选择:选择六种主要的欧洲语言,以覆盖广泛的语言和文化背景。2) 数据本地化:使用本地化的球队、城市和用户资料,以确保数据的文化相关性。3) 评估指标:使用函数调用准确性和一致性等指标,以衡量Agent在多语言环境下的性能。

📊 实验亮点

实验结果表明,以推理为导向的模型(如GPT-5、Qwen3-235B)在Ticket-Bench上表现更优,但在不同语言之间仍存在显著的性能差异。例如,某些模型在英语上的函数调用准确率较高,但在其他语言上的表现则相对较差。这表明即使是先进的LLM Agent,在多语言环境下仍有很大的改进空间。

🎯 应用场景

Ticket-Bench可用于评估和改进LLM Agent在多语言环境下的性能,尤其是在需要处理不同文化背景下用户需求的任务中,例如多语言客服、跨境电商、国际旅游等。该基准有助于开发更鲁棒、更适应不同文化背景的LLM Agent,提升用户体验和业务效率。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed as task-oriented agents, where success depends on their ability to generate accurate function calls under realistic, multilingual conditions. However, existing agent evaluations largely overlook cultural and linguistic diversity, often relying on monolingual or naively translated benchmarks. We introduce Ticket-Bench, a benchmark for multilingual agent evaluation in task-oriented scenarios. Ticket-Bench simulates the domain of soccer ticket purchases across six major languages: Portuguese, English, Spanish, German, Italian, and French. Using localized teams, cities, and user profiles to provide a higher level of realism. We evaluate a wide range of commercial and open-source LLMs, measuring function-calling accuracy and consistency across languages. Results show that reasoning-oriented models (e.g., GPT-5, Qwen3-235B) dominate performance but still exhibit notable cross-lingual disparities. These findings underscore the need for culturally aware, multilingual benchmarks to guide the development of robust LLM agents.