Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing

作者: Yuwen Li, Wei Zhang, Zelong Huang, Mason Yang, Jiajun Wu, Shawn Guo, Huahao Hu, Lingyi Sun, Jian Yang, Mingjie Tang, Byran Dai

分类: cs.CL

发布日期: 2025-12-29

💡 一句话要点

InfTool：通过多智能体角色扮演合成无限工具使用数据，提升LLM工具调用能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具调用 多智能体 自主学习 数据合成 强化学习

📋 核心要点

现有方法在高质量轨迹上依赖昂贵的人工标注，对未见工具的泛化能力差，且单一模型合成存在偏差和覆盖不足的质量上限。
InfTool通过多智能体协作，利用用户模拟器、工具调用助手和MCP服务器，自动生成多样且经过验证的工具使用轨迹，无需人工干预。
实验表明，InfTool显著提升了LLM的工具调用准确率，在BFCL上超越了更大的模型，并与人工标注数据训练的模型性能相当。

📝 摘要（中文）

本文提出InfTool，一个全自动框架，通过自进化的多智能体合成来打破现有方法在工具调用方面面临的挑战。InfTool仅需原始API规范，即可协调三个协作智能体（用户模拟器、工具调用助手和MCP服务器）生成多样且经过验证的轨迹，涵盖单轮调用到复杂的多步骤工作流程。该框架建立了一个闭环：合成的数据通过带有门控奖励的群体相对策略优化（GRPO）来训练模型，改进后的模型生成更高质量的数据以弥补能力差距，并且这个循环在没有人为干预的情况下迭代。在Berkeley Function-Calling Leaderboard（BFCL）上的实验表明，InfTool将一个基础的32B模型从19.8%的准确率提升到70.9%（+258%），超过了10倍大的模型，并且可以与Claude-Opus相媲美，所有这些都来自合成数据，无需人工标注。

🔬 方法详解

问题定义：现有的大语言模型在可靠地调用外部工具方面存在瓶颈。主要痛点在于：需要大量高质量的人工标注数据，难以泛化到未见过的工具，以及单一模型生成数据存在的固有偏差和覆盖率不足的问题。这些问题限制了LLM自主智能体的能力。

核心思路：InfTool的核心思路是构建一个完全自主的闭环系统，通过多智能体角色扮演自动生成和验证工具使用数据。通过迭代训练，不断提升模型在工具调用方面的能力，并利用改进后的模型生成更高质量的数据，从而打破人工标注的限制和单一模型合成的质量上限。

技术框架：InfTool包含三个主要模块：用户模拟器（User Simulator）、工具调用助手（Tool-Calling Assistant）和MCP服务器。用户模拟器负责模拟用户请求，工具调用助手负责根据用户请求调用合适的工具，MCP服务器负责验证工具调用的正确性。这三个智能体协同工作，生成工具使用轨迹。然后，使用群体相对策略优化（GRPO）算法训练模型，并使用门控奖励来引导训练过程。训练后的模型用于生成新的数据，形成一个闭环。

关键创新：InfTool的关键创新在于其完全自主的数据合成和训练流程。它摆脱了对人工标注数据的依赖，通过多智能体协作和闭环迭代，能够不断生成高质量的工具使用数据，并提升模型的工具调用能力。与现有方法相比，InfTool具有更高的效率和更好的泛化能力。

关键设计：InfTool使用群体相对策略优化（GRPO）算法进行训练，并使用门控奖励来引导训练过程。门控奖励的设计旨在鼓励模型生成高质量的工具使用轨迹，并惩罚错误或不完整的轨迹。具体参数设置和网络结构细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

InfTool在Berkeley Function-Calling Leaderboard (BFCL) 上取得了显著成果，将一个32B的基础模型准确率从19.8%提升至70.9%（提升258%）。该模型性能超越了参数量是其10倍的模型，并与Claude-Opus等先进模型相媲美。值得强调的是，所有这些提升都来自于合成数据，无需任何人工标注。

🎯 应用场景

InfTool可应用于各种需要LLM自主调用外部工具的场景，例如智能助手、自动化工作流程、机器人控制等。该研究降低了LLM工具调用能力开发的成本，加速了自主智能体的普及，并为未来的智能系统设计提供了新的思路。

📄 摘要（原文）

Enabling Large Language Models (LLMs) to reliably invoke external tools remains a critical bottleneck for autonomous agents. Existing approaches suffer from three fundamental challenges: expensive human annotation for high-quality trajectories, poor generalization to unseen tools, and quality ceilings inherent in single-model synthesis that perpetuate biases and coverage gaps. We introduce InfTool, a fully autonomous framework that breaks these barriers through self-evolving multi-agent synthesis. Given only raw API specifications, InfTool orchestrates three collaborative agents (User Simulator, Tool-Calling Assistant, and MCP Server) to generate diverse, verified trajectories spanning single-turn calls to complex multi-step workflows. The framework establishes a closed loop: synthesized data trains the model via Group Relative Policy Optimization (GRPO) with gated rewards, the improved model generates higher-quality data targeting capability gaps, and this cycle iterates without human intervention. Experiments on the Berkeley Function-Calling Leaderboard (BFCL) demonstrate that InfTool transforms a base 32B model from 19.8% to 70.9% accuracy (+258%), surpassing models 10x larger and rivaling Claude-Opus, and entirely from synthetic data without human annotation.

Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理