GTA: A Benchmark for General Tool Agents

📄 arXiv: 2407.08713v2 📥 PDF

作者: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

分类: cs.CL, cs.AI

发布日期: 2024-07-11 (更新: 2024-11-22)

备注: Github repo: https://github.com/open-compass/GTA

🔗 代码/项目: GITHUB


💡 一句话要点

提出GTA基准测试,评估通用工具智能体在真实场景下的工具使用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具智能体 基准测试 大型语言模型 多模态输入 真实世界场景

📋 核心要点

  1. 现有工具使用评估依赖AI生成查询和虚拟工具,难以反映LLM在真实场景下的问题解决能力。
  2. GTA基准测试通过引入真实用户查询、真实部署工具和真实多模态输入,更贴近现实世界应用场景。
  3. 实验表明,现有LLM在GTA基准测试中表现不佳,揭示了其在真实场景下工具使用能力的瓶颈。

📝 摘要(中文)

本文提出GTA,一个用于通用工具智能体的基准测试,旨在弥补现有工具使用评估与真实世界场景之间的差距。现有评估常使用AI生成的查询、单步任务、虚拟工具和纯文本交互,无法有效揭示智能体在真实世界中的问题解决能力。GTA包含三个主要方面:(i)真实用户查询:人工编写的查询,具有简单的真实世界目标但隐含工具使用,要求LLM推理合适的工具并规划解决方案步骤。(ii)真实部署的工具:一个配备了感知、操作、逻辑和创造力等类别工具的评估平台,用于评估智能体的实际任务执行性能。(iii)真实多模态输入:真实的图像文件,如空间场景、网页截图、表格、代码片段和印刷/手写材料,用作查询上下文,以紧密对齐真实世界场景。设计了229个真实世界任务和可执行的工具链来评估主流LLM。实验结果表明,真实世界用户查询对现有LLM具有挑战性,GPT-4完成的任务不到50%,大多数LLM的完成率低于25%。该评估揭示了当前LLM在真实场景中工具使用能力的瓶颈,为推进通用工具智能体提供了未来方向。

🔬 方法详解

问题定义:现有工具使用评估方法存在与真实世界脱节的问题。它们通常使用AI生成的查询,这些查询可能过于简单或不切实际。此外,现有评估往往依赖于虚拟或模拟的工具,而没有使用真实部署的工具。这使得评估结果难以推广到实际应用中,无法准确反映LLM在真实世界中的工具使用能力。

核心思路:GTA基准测试的核心思路是构建一个更贴近真实世界的评估环境。通过引入真实用户查询、真实部署的工具和真实的多模态输入,GTA能够更全面、更准确地评估LLM在真实场景下的工具使用能力。这种设计旨在揭示现有LLM在真实世界应用中的瓶颈,并为未来的研究提供方向。

技术框架:GTA基准测试包含三个主要组成部分:(1)真实用户查询:由人工编写,模拟用户在真实世界中可能提出的问题,这些问题通常需要使用多个工具才能解决。(2)真实部署的工具:涵盖感知、操作、逻辑和创造力等多个类别,这些工具是真实可用的,可以执行实际的任务。(3)真实多模态输入:包括图像、网页截图、表格、代码片段等多种形式,这些输入模拟了用户在真实世界中可能遇到的各种情境。整个评估流程包括:LLM接收用户查询和多模态输入,LLM推理并选择合适的工具,LLM执行工具并获得结果,最后评估LLM的完成情况。

关键创新:GTA基准测试的关键创新在于其真实性。与现有评估方法相比,GTA更贴近真实世界场景,能够更准确地评估LLM的工具使用能力。具体来说,GTA的创新点包括:(1)使用真实用户查询,避免了AI生成查询的局限性。(2)使用真实部署的工具,确保评估结果的实用性。(3)使用真实多模态输入,模拟了真实世界的多样性。

关键设计:GTA基准测试包含229个真实世界任务,这些任务涵盖了各种不同的场景和工具使用需求。每个任务都包含一个用户查询、一组多模态输入和一个可执行的工具链。工具链描述了解决该任务所需的工具序列。评估指标包括任务完成率、工具选择准确率和执行效率等。此外,GTA还提供了一个评估平台,方便研究人员进行实验和比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在GTA基准测试中表现不佳。GPT-4完成的任务不到50%,大多数LLM的完成率低于25%。这表明现有LLM在真实场景下的工具使用能力仍然存在很大的提升空间。该结果揭示了当前LLM在真实世界应用中的瓶颈,为未来的研究提供了明确的方向。

🎯 应用场景

GTA基准测试可用于评估和比较不同LLM的工具使用能力,推动通用工具智能体的发展。其潜在应用领域包括智能助手、自动化办公、机器人控制等。通过不断改进LLM的工具使用能力,可以实现更智能、更高效的自动化解决方案,提升生产力。

📄 摘要(原文)

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.