GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows
作者: Jize Wang, Xuanxuan Liu, Yining Li, Songyang Zhang, Yijun Wang, Zifei Shan, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
分类: cs.CL, cs.AI
发布日期: 2026-04-17
🔗 代码/项目: GITHUB
💡 一句话要点
GTA-2:构建通用工具智能体的分层基准,评估原子工具使用到开放式工作流的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用工具智能体 基准测试 开放式工作流 分层评估 真实世界数据
📋 核心要点
- 现有工具使用基准依赖于AI生成的查询、虚拟工具和有限的系统级协调,与真实世界的需求不符,阻碍了通用智能体的发展。
- GTA-2通过构建一个分层基准,利用真实用户查询、已部署工具和多模态上下文,来评估智能体在原子工具使用和开放式工作流中的能力。
- 实验表明,现有模型在原子任务上表现不佳,在工作流任务上更是难以完成,同时验证了检查点引导反馈和高级执行框架对性能的提升。
📝 摘要(中文)
本文提出了GTA-2,一个用于评估通用工具智能体(GTA)的分层基准,涵盖原子工具使用和开放式工作流。该基准基于真实世界的用户查询、已部署的工具和多模态上下文构建,具有真实性。(i) GTA-Atomic继承自先前的GTA基准,评估短视距、封闭式工具使用的精确性。(ii) GTA-Workflow引入长视距、开放式任务,用于真实的端到端完成。为了评估开放式交付物,提出了一种递归的基于检查点的评估机制,将目标分解为可验证的子目标,从而能够统一评估模型能力和智能体执行框架(即,执行工具)。实验表明存在显著的能力差距:前沿模型在原子任务上已经表现不佳(低于50%),在工作流上则基本失败,顶级模型的成功率仅为14.39%。进一步的分析表明,检查点引导的反馈可以提高性能,而Manus和OpenClaw等高级框架可以显著增强工作流完成,突出了执行工具设计的重要性,而不仅仅是底层模型的能力。这些发现为开发可靠的个人和专业助理提供了指导。数据集和代码将在https://github.com/open-compass/GTA上提供。
🔬 方法详解
问题定义:现有工具使用基准测试无法真实反映现实世界的需求,主要体现在使用AI生成的查询、虚拟工具以及缺乏系统级的协调。这使得评估通用智能体在复杂、开放式工作流中的能力变得困难,阻碍了通用智能体的实际应用。
核心思路:GTA-2的核心思路是构建一个更贴近真实世界的基准,通过使用真实的用户查询、已部署的工具和多模态上下文,来更准确地评估智能体在原子工具使用和开放式工作流中的能力。同时,引入分层评估机制,将复杂任务分解为可验证的子目标,从而更细粒度地评估智能体的性能。
技术框架:GTA-2包含两个主要部分:GTA-Atomic和GTA-Workflow。GTA-Atomic继承自先前的GTA基准,用于评估短视距、封闭式工具使用的精确性。GTA-Workflow引入长视距、开放式任务,用于评估真实的端到端完成能力。为了评估开放式交付物,采用了递归的基于检查点的评估机制,将目标分解为可验证的子目标。整个框架旨在统一评估模型能力和智能体执行框架。
关键创新:GTA-2的关键创新在于其真实性和分层评估机制。通过使用真实世界的数据和任务,GTA-2能够更准确地反映智能体在实际应用中的性能。递归的基于检查点的评估机制能够将复杂任务分解为可验证的子目标,从而更细粒度地评估智能体的能力,并为智能体的改进提供更具体的指导。
关键设计:GTA-Workflow中的任务设计模拟了真实世界中的工作流程,例如预定旅行或管理项目。递归检查点评估机制通过定义一系列可验证的子目标来评估任务的完成情况。评估指标包括成功率、完成时间和资源利用率。此外,该基准还考虑了多模态输入,例如文本、图像和音频,以更全面地评估智能体的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有前沿模型在GTA-Atomic上的成功率低于50%,而在GTA-Workflow上的成功率仅为14.39%。检查点引导的反馈可以提高性能,而Manus和OpenClaw等高级框架可以显著增强工作流完成。这些结果突出了现有模型在复杂任务处理方面的不足,以及执行框架设计的重要性。
🎯 应用场景
GTA-2基准的提出,为开发更可靠的个人和专业助理奠定了基础。通过更真实、更全面的评估,可以推动通用工具智能体在自动化办公、智能家居、客户服务等领域的应用,提升工作效率和生活质量。未来,基于GTA-2的研究可以促进智能体在复杂任务规划、多模态信息处理和人机协作等方面的进步。
📄 摘要(原文)
The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.