Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation
作者: Thales Sales Almeida, João Guilherme Alves Santos, Thiago Laitz, Giovana Kerche Bonás
分类: cs.CL
发布日期: 2025-09-17
💡 一句话要点
Ticket-Bench:多语言区域化Agent评估基准,提升任务型Agent的文化适应性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言评估 任务型Agent 语言模型 文化适应性 函数调用 基准测试 区域化 自然语言处理
📋 核心要点
- 现有Agent评估缺乏文化和语言多样性,主要依赖单语或简单翻译,无法真实反映多语言环境下的Agent性能。
- Ticket-Bench通过模拟多语言足球票务购买场景,使用本地化信息,构建更真实的Agent评估基准。
- 实验结果表明,推理能力强的模型表现更优,但仍存在跨语言差异,强调了多语言基准的重要性。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署为面向任务的Agent,其成功取决于在真实的、多语言条件下生成准确函数调用的能力。然而,现有的Agent评估在很大程度上忽略了文化和语言的多样性,通常依赖于单语或简单翻译的基准。我们推出了Ticket-Bench,这是一个用于评估多语言Agent在面向任务场景中的基准。Ticket-Bench模拟了六种主要语言(葡萄牙语、英语、西班牙语、德语、意大利语和法语)的足球票务购买领域,并使用本地化的球队、城市和用户资料,以提供更高程度的真实感。我们评估了各种商业和开源LLM,衡量它们在不同语言中的函数调用准确性和一致性。结果表明,以推理为导向的模型(例如GPT-5、Qwen3-235B)在性能上占据主导地位,但仍然表现出显著的跨语言差异。这些发现强调了需要具有文化意识的多语言基准来指导鲁棒LLM Agent的开发。
🔬 方法详解
问题定义:现有Agent评估基准主要集中在单语环境,或者简单地将单语数据翻译成多种语言,忽略了不同语言和文化背景下的差异。这导致评估结果无法真实反映Agent在实际多语言环境中的性能,尤其是在需要理解特定文化背景知识的任务中,例如足球票务购买涉及的球队、城市等信息。因此,需要一个更贴近真实场景、考虑文化和语言差异的多语言Agent评估基准。
核心思路:Ticket-Bench的核心思路是构建一个多语言、区域化的任务型Agent评估基准,通过模拟真实的足球票务购买场景,涵盖多种语言和文化背景。该基准使用本地化的球队、城市和用户资料,以提供更高程度的真实感,从而更准确地评估Agent在多语言环境下的性能。
技术框架:Ticket-Bench的技术框架主要包括以下几个部分: 1. 场景定义:定义足球票务购买的场景,包括用户需求、球队信息、城市信息等。 2. 数据生成:生成多语言的对话数据,涵盖六种主要语言:葡萄牙语、英语、西班牙语、德语、意大利语和法语。数据生成过程中,考虑了不同语言和文化背景下的差异,例如使用本地化的球队名称、城市名称等。 3. 评估指标:定义评估Agent性能的指标,包括函数调用准确性和一致性。 4. 模型评估:使用Ticket-Bench评估各种商业和开源LLM,并分析评估结果。
关键创新:Ticket-Bench的关键创新在于其多语言和区域化的设计。与现有的单语或简单翻译的基准不同,Ticket-Bench考虑了不同语言和文化背景下的差异,从而更准确地评估Agent在多语言环境中的性能。此外,Ticket-Bench还模拟了真实的足球票务购买场景,提供了更高程度的真实感。
关键设计:Ticket-Bench的关键设计包括: 1. 多语言数据生成:使用高质量的翻译和本地化技术,确保不同语言的数据具有相同的语义含义,并符合当地的语言习惯。 2. 区域化信息集成:收集和整理了六种语言对应的足球球队、城市等信息,并将其集成到数据生成过程中,以提供更高程度的真实感。 3. 函数调用准确性评估:设计了专门的评估指标,用于衡量Agent生成函数调用的准确性,包括参数的正确性和完整性。 4. 一致性评估:评估Agent在不同语言下生成函数调用的一致性,以衡量其跨语言理解能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,以推理为导向的模型(例如GPT-5、Qwen3-235B)在Ticket-Bench上表现更优,但在不同语言之间仍存在显著的性能差异。这表明即使是先进的LLM,在处理多语言和文化差异时仍然面临挑战,需要进一步的研究和改进。
🎯 应用场景
Ticket-Bench可用于评估和改进多语言任务型Agent,尤其是在需要处理特定文化背景知识的场景中,例如旅游预订、客户服务等。该基准的构建方法可以推广到其他领域,促进更鲁棒、更具文化适应性的LLM Agent的开发,提升用户在多语言环境下的体验。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed as task-oriented agents, where success depends on their ability to generate accurate function calls under realistic, multilingual conditions. However, existing agent evaluations largely overlook cultural and linguistic diversity, often relying on monolingual or naively translated benchmarks. We introduce Ticket-Bench, a benchmark for multilingual agent evaluation in task-oriented scenarios. Ticket-Bench simulates the domain of soccer ticket purchases across six major languages: Portuguese, English, Spanish, German, Italian, and French. Using localized teams, cities, and user profiles to provide a higher level of realism. We evaluate a wide range of commercial and open-source LLMs, measuring function-calling accuracy and consistency across languages. Results show that reasoning-oriented models (e.g., GPT-5, Qwen3-235B) dominate performance but still exhibit notable cross-lingual disparities. These findings underscore the need for culturally aware, multilingual benchmarks to guide the development of robust LLM agents.