GTA: A Benchmark for General Tool Agents

作者: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

分类: cs.CL, cs.AI

发布日期: 2024-07-11 (更新: 2024-11-22)

备注: Github repo: https://github.com/open-compass/GTA

🔗 代码/项目: GITHUB

💡 一句话要点

提出GTA基准测试，评估通用工具智能体在真实场景下的工具使用能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具智能体 基准测试 大型语言模型 多模态输入 真实世界场景

📋 核心要点

现有工具使用评估依赖AI生成查询和虚拟工具，难以反映LLM在真实场景下的问题解决能力。
GTA基准测试通过引入真实用户查询、真实部署工具和真实多模态输入，更贴近现实世界应用场景。
实验表明，现有LLM在GTA基准测试中表现不佳，揭示了其在真实场景下工具使用能力的瓶颈。

📝 摘要（中文）

本文提出GTA，一个用于通用工具智能体的基准测试，旨在弥补现有工具使用评估与真实世界场景之间的差距。现有评估常使用AI生成的查询、单步任务、虚拟工具和纯文本交互，无法有效揭示智能体在真实世界中的问题解决能力。GTA包含三个主要方面：(i)真实用户查询：人工编写的查询，具有简单的真实世界目标但隐含工具使用，要求LLM推理合适的工具并规划解决方案步骤。(ii)真实部署的工具：一个配备了感知、操作、逻辑和创造力等类别工具的评估平台，用于评估智能体的实际任务执行性能。(iii)真实多模态输入：真实的图像文件，如空间场景、网页截图、表格、代码片段和印刷/手写材料，用作查询上下文，以紧密对齐真实世界场景。设计了229个真实世界任务和可执行的工具链来评估主流LLM。实验结果表明，真实世界用户查询对现有LLM具有挑战性，GPT-4完成的任务不到50%，大多数LLM的完成率低于25%。该评估揭示了当前LLM在真实场景中工具使用能力的瓶颈，为推进通用工具智能体提供了未来方向。

🔬 方法详解

问题定义：现有工具使用评估方法存在与真实世界脱节的问题。它们通常使用AI生成的查询，这些查询可能过于简单或不切实际。此外，现有评估往往依赖于虚拟或模拟的工具，而没有使用真实部署的工具。这使得评估结果难以推广到实际应用中，无法准确反映LLM在真实世界中的工具使用能力。

核心思路：GTA基准测试的核心思路是构建一个更贴近真实世界的评估环境。通过引入真实用户查询、真实部署的工具和真实的多模态输入，GTA能够更全面、更准确地评估LLM在真实场景下的工具使用能力。这种设计旨在揭示现有LLM在真实世界应用中的瓶颈，并为未来的研究提供方向。

技术框架：GTA基准测试包含三个主要组成部分：(1)真实用户查询：由人工编写，模拟用户在真实世界中可能提出的问题，这些问题通常需要使用多个工具才能解决。(2)真实部署的工具：涵盖感知、操作、逻辑和创造力等多个类别，这些工具是真实可用的，可以执行实际的任务。(3)真实多模态输入：包括图像、网页截图、表格、代码片段等多种形式，这些输入模拟了用户在真实世界中可能遇到的各种情境。整个评估流程包括：LLM接收用户查询和多模态输入，LLM推理并选择合适的工具，LLM执行工具并获得结果，最后评估LLM的完成情况。

关键创新：GTA基准测试的关键创新在于其真实性。与现有评估方法相比，GTA更贴近真实世界场景，能够更准确地评估LLM的工具使用能力。具体来说，GTA的创新点包括：(1)使用真实用户查询，避免了AI生成查询的局限性。(2)使用真实部署的工具，确保评估结果的实用性。(3)使用真实多模态输入，模拟了真实世界的多样性。

关键设计：GTA基准测试包含229个真实世界任务，这些任务涵盖了各种不同的场景和工具使用需求。每个任务都包含一个用户查询、一组多模态输入和一个可执行的工具链。工具链描述了解决该任务所需的工具序列。评估指标包括任务完成率、工具选择准确率和执行效率等。此外，GTA还提供了一个评估平台，方便研究人员进行实验和比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在GTA基准测试中表现不佳。GPT-4完成的任务不到50%，大多数LLM的完成率低于25%。这表明现有LLM在真实场景下的工具使用能力仍然存在很大的提升空间。该结果揭示了当前LLM在真实世界应用中的瓶颈，为未来的研究提供了明确的方向。

🎯 应用场景

GTA基准测试可用于评估和比较不同LLM的工具使用能力，推动通用工具智能体的发展。其潜在应用领域包括智能助手、自动化办公、机器人控制等。通过不断改进LLM的工具使用能力，可以实现更智能、更高效的自动化解决方案，提升生产力。

📄 摘要（原文）

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

GTA: A Benchmark for General Tool Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理