Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments

作者: Ibrahim Abdelaziz, Asim Munawar, Kinjal Basu, Maxwell Crouse, Chulaka Gunasekara, Suneet Katrekar, Pavan Kapanipathi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-06-02

💡 一句话要点

提出PROVE框架以解决多步工具调用中的训练挑战

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 工具调用 多步任务 程序化奖励 自动化数据合成 状态化环境 大型语言模型

📋 核心要点

现有方法在训练多步工具调用时面临高成本的真实环境构建、合成查询与实际状态脱节等挑战。
论文提出PROVE框架，通过状态化服务器、自动化数据合成和程序化奖励机制解决上述问题。
实验结果显示，PROVE在多个基准上取得了显著提升，证明了其在多步工具协调中的有效性。

📝 摘要（中文）

训练大型语言模型（LLMs）以协调多步工具调用面临三大障碍：构建真实的状态执行环境成本高、合成的训练查询常与服务器实际状态脱节、基于回忆的强化学习奖励激励冗长的工具调用模式。为此，本文提出了PROVE（Programmatic Rewards On Verified Environments）框架，包含三项贡献：首先，提供了20个状态化的MCP（Model Context Protocol）服务器，暴露343个工具，实现会话范围的状态隔离；其次，构建了自动化数据合成管道，通过依赖图引导的对话模拟生成验证的多轮工具调用轨迹，确保每个生成的查询都引用实际存在的实体；最后，设计了一种多组件的程序化奖励机制，无需外部评判模型。通过GRPO训练四个模型，PROVE在多个基准上取得了显著提升。

🔬 方法详解

问题定义：本文旨在解决训练大型语言模型进行多步工具调用时的环境构建成本高、合成查询与实际状态不一致等问题。现有方法往往无法有效执行生成的工具调用，导致训练效果不佳。

核心思路：论文提出的PROVE框架通过引入状态化的MCP服务器和自动化数据合成管道，确保生成的查询与实际环境相符，从而提高训练的有效性。程序化奖励机制则通过多种评分标准来激励模型生成更有效的工具调用。

技术框架：PROVE框架包括三个主要模块：状态化MCP服务器库、自动化数据合成管道和多组件程序化奖励机制。MCP服务器提供真实的执行环境，数据合成管道生成有效的训练数据，而程序化奖励机制则评估模型的表现。

关键创新：最重要的创新在于构建了一个包含20个MCP服务器的库，能够实时执行工具调用，并且设计了无需外部评判模型的程序化奖励机制，这与现有方法依赖外部评估的方式有本质区别。

关键设计：在训练过程中，使用了约13K的训练示例，采用GRPO算法，所有模型使用相同的奖励超参数，学习率根据模型家族进行调整。程序化奖励包括有效性评分、依赖覆盖、适应性效率惩罚等多个方面，确保模型在多步工具调用中表现优异。

🖼️ 关键图片

📊 实验亮点

在BFCL Multi-Turn、tau2-bench和T-Eval基准上，PROVE框架分别取得了+10.2、+6.8和+6.5的提升，显示出其在多步工具协调中的一致性和有效性。这些结果表明，紧凑的程序化奖励机制能够显著改善模型性能。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化系统和机器人等，能够有效提升这些系统在复杂任务中的工具调用能力。通过优化多步工具调用的训练过程，未来可能推动更智能的交互系统的发展，提升用户体验和系统效率。

📄 摘要（原文）

Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are costly to build, synthetic training queries are often detached from the server's actual state (so the generated tool calls fail to execute), and recall-based RL rewards incentivize verbose tool-calling patterns. We present PROVE (Programmatic Rewards On Verified Environments), a framework with three contributions: (1) a library of 20 stateful MCP (Model Context Protocol) servers exposing 343 tools, enabling live-execution RL training with session-scoped state isolation; (2) an automated data synthesis pipeline that generates validated multi-turn tool-call trajectories against these servers via dependency-graph-guided conversation simulation grounded in live-sampled server state, so every generated query references entities that actually exist; and (3) a multi-component programmatic reward - graduated validity scoring, dependency-aware coverage, an adaptive efficiency penalty with a complexity-scaled call budget, a tool-name signal, and an argument-value matching bonus - requiring no external judge model. We train four models (Qwen3-4B, Qwen3-8B, Qwen2.5-7B, Granite-4.1-8B) with GRPO using identical reward hyperparameters and ~13K training examples; only learning rate is tuned per model family from a three-point sweep. On BFCL Multi-Turn, tau2-bench, and T-Eval, PROVE yields improvements of up to +10.2, +6.8, and +6.5 points respectively, demonstrating that a compact programmatic reward yields consistent gains on multi-step tool orchestration across two model families.

Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理