ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

作者: Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-08-08 (更新: 2025-04-16)

🔗 代码/项目: GITHUB

💡 一句话要点

ToolSandbox：用于评估LLM工具使用能力的有状态、交互式基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 基准测试 有状态评估 交互式评估 用户模拟器 动态评估 LLM评估

📋 核心要点

现有工具使用评估主要集中于无状态API或离线对话，缺乏对复杂状态依赖和交互式场景的有效评估。
ToolSandbox通过构建有状态的工具环境和用户模拟器，支持在线对话评估，并引入动态评估策略。
实验结果表明，即使是最先进的LLMs在处理ToolSandbox中的复杂任务时仍面临挑战，揭示了现有模型的局限性。

📝 摘要（中文）

随着大型语言模型（LLMs）的快速发展，利用工具辅助LLMs解决现实世界问题的研究兴趣日益浓厚，这也需要对工具使用能力进行全面评估。以往工作主要集中于评估无状态的Web服务（RESTful API），基于单轮用户提示，或离线对话轨迹。ToolSandbox包含有状态的工具执行、工具之间的隐式状态依赖、支持在线对话评估的内置用户模拟器，以及用于评估任意轨迹中中间和最终里程碑的动态评估策略。实验表明，开源和专有模型之间存在显著的性能差距，并且ToolSandbox中定义的复杂任务（如状态依赖、规范化和信息不足）对最先进的LLMs也具有挑战性，为工具使用LLM的能力提供了全新的见解。ToolSandbox评估框架已在https://github.com/apple/ToolSandbox发布。

🔬 方法详解

问题定义：现有工具使用评估方法主要存在以下痛点：一是缺乏对工具之间状态依赖关系的建模，导致无法评估LLM在复杂任务中的推理能力；二是评估方式多为单轮交互或离线轨迹，无法模拟真实用户交互场景；三是缺乏对中间状态的有效评估，难以全面了解LLM的工具使用过程。

核心思路：ToolSandbox的核心思路是构建一个有状态、交互式的工具使用环境，通过用户模拟器与LLM进行多轮对话，并利用动态评估策略对LLM在不同阶段的表现进行评估。这种方法能够更全面、更真实地反映LLM的工具使用能力。

技术框架：ToolSandbox主要包含以下几个核心模块：1) 工具环境：模拟真实世界的工具和服务，并维护工具的状态信息；2) 用户模拟器：模拟用户的行为和意图，与LLM进行多轮对话；3) 动态评估模块：根据任务的进展情况，动态调整评估指标和策略，对LLM的中间状态和最终结果进行评估；4) 评估任务集：包含多种复杂任务，例如状态依赖、规范化和信息不足等，用于全面评估LLM的工具使用能力。

关键创新：ToolSandbox的关键创新在于：1) 引入了有状态的工具环境，能够模拟工具之间的依赖关系；2) 构建了用户模拟器，支持在线对话评估；3) 提出了动态评估策略，能够对LLM的中间状态进行评估。这些创新使得ToolSandbox能够更全面、更真实地评估LLM的工具使用能力。

关键设计：ToolSandbox的关键设计包括：1) 工具环境的状态表示方法，需要能够准确地反映工具的状态信息；2) 用户模拟器的行为策略，需要能够模拟真实用户的行为和意图；3) 动态评估策略的指标选择和权重设置，需要能够有效地评估LLM的工具使用能力。具体参数设置和损失函数等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，开源模型和专有模型在ToolSandbox上的性能存在显著差距，即使是最先进的LLMs在处理状态依赖、规范化和信息不足等复杂任务时也面临挑战。这表明现有LLMs在工具使用方面仍有很大的提升空间，ToolSandbox能够有效地揭示LLMs的局限性。

🎯 应用场景

ToolSandbox可用于评估和提升LLM在各种实际应用场景中的工具使用能力，例如智能助手、自动化流程、机器人控制等。通过ToolSandbox的评估，可以发现LLM在工具使用方面的不足，并针对性地进行改进，从而提高LLM在实际应用中的性能和可靠性。该研究为未来开发更强大的工具辅助LLM奠定了基础。

📄 摘要（原文）

Recent large language models (LLMs) advancements sparked a growing research interest in tool assisted LLMs solving real-world challenges, which calls for comprehensive evaluation of tool-use capabilities. While previous works focused on either evaluating over stateless web services (RESTful API), based on a single turn user prompt, or an off-policy dialog trajectory, ToolSandbox includes stateful tool execution, implicit state dependencies between tools, a built-in user simulator supporting on-policy conversational evaluation and a dynamic evaluation strategy for intermediate and final milestones over an arbitrary trajectory. We show that open source and proprietary models have a significant performance gap, and complex tasks like State Dependency, Canonicalization and Insufficient Information defined in ToolSandbox are challenging even the most capable SOTA LLMs, providing brand-new insights into tool-use LLM capabilities. ToolSandbox evaluation framework is released at https://github.com/apple/ToolSandbox

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理