Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration

📄 arXiv: 2604.02869 📥 PDF

作者: Wachiravit Modecrua, Krittanon Kaewtawee, Krittin Pachtrachai, Touchapon Kraisingkorn

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出迭代奖励校准的多轮强化学习方法,提升工具调用Agent在复杂任务中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 工具调用 多轮对话 奖励校准 策略优化

📋 核心要点

  1. 多轮对话中工具调用Agent的训练面临稀疏奖励和跨轮次信用分配的挑战,现有方法难以有效学习。
  2. 论文提出迭代奖励校准方法,通过分析rollout数据来设计每轮奖励,并结合MT-GRPO和GTPO进行优化。
  3. 实验表明,该方法显著提升了Qwen系列模型在Tau-Bench上的性能,甚至超越了更大的GPT-4模型。

📝 摘要(中文)

本文提出了一种结合MT-GRPO(多轮组相对策略优化)和GTPO(广义Token级策略优化)的方法,首次应用于训练工具调用Agent,使其能够处理基于LLM用户模拟器的真实客户服务任务。通过对训练过程的系统分析,发现朴素设计的密集型单轮奖励会因奖励区分性和优势方向的不对齐而导致性能下降高达14%。为此,本文引入了迭代奖励校准方法,通过对rollout数据的经验判别分析来设计单轮奖励,并证明GTPO混合优势公式消除了优势不对齐问题。在Tau-Bench航空基准测试中,该方法将Qwen3.5-4B的性能从63.8%提高到66.7%(+2.9pp),将Qwen3-30B-A3B的性能从58.0%提高到69.5%(+11.5pp)。训练后的4B模型甚至超过了GPT-4.1(49.4%)和GPT-4o(42.8%),而30.5B MoE模型接近Claude Sonnet 4.5(70.0%)。据我们所知,这是Tau-Bench上首次发布的RL训练结果。我们发布了代码、奖励校准分析和训练配方。

🔬 方法详解

问题定义:论文旨在解决多轮对话场景下,工具调用Agent利用强化学习进行训练时面临的挑战。现有方法通常采用稀疏奖励,导致学习效率低下;而密集奖励的设计不当,又会造成奖励信号与实际优势方向不一致,反而降低性能。因此,如何设计有效的奖励机制,并进行高效的策略优化,是本文要解决的核心问题。

核心思路:论文的核心思路是通过迭代的方式校准每轮的奖励函数。首先,通过分析rollout数据,评估当前奖励函数的区分性,即奖励信号是否能够正确区分好的行为和坏的行为。然后,根据分析结果调整奖励函数,使其与优势方向对齐,从而引导Agent学习更有效的策略。此外,论文还结合了MT-GRPO和GTPO,以提高策略优化的效率和稳定性。

技术框架:整体框架包括以下几个主要步骤:1) 使用LLM用户模拟器生成多轮对话数据;2) 使用工具调用Agent与模拟器进行交互,生成rollout数据;3) 对rollout数据进行经验判别分析,评估当前奖励函数的区分性;4) 根据分析结果,迭代地调整奖励函数;5) 使用MT-GRPO和GTPO对Agent的策略进行优化。

关键创新:论文的关键创新在于提出了迭代奖励校准方法。该方法通过经验分析rollout数据,能够有效地发现并纠正奖励函数设计中的偏差,从而提高强化学习的效率和性能。与传统的奖励函数设计方法相比,该方法更加数据驱动,能够更好地适应不同的任务和环境。

关键设计:论文的关键设计包括:1) 使用经验判别分析来评估奖励函数的区分性,具体指标未知;2) 设计了GTPO混合优势公式,以消除优势不对齐问题,具体公式未知;3) 针对Tau-Bench航空基准测试,设计了特定的奖励函数和训练配方,具体细节未知。

📊 实验亮点

实验结果表明,该方法显著提升了Qwen系列模型在Tau-Bench上的性能。具体来说,Qwen3.5-4B的性能从63.8%提高到66.7%(+2.9pp),Qwen3-30B-A3B的性能从58.0%提高到69.5%(+11.5pp)。更令人瞩目的是,训练后的4B模型甚至超越了GPT-4.1(49.4%)和GPT-4o(42.8%),而30.5B MoE模型接近Claude Sonnet 4.5(70.0%)。

🎯 应用场景

该研究成果可广泛应用于智能客服、虚拟助手等领域,提升Agent在复杂多轮对话任务中的表现。通过更有效地利用工具,Agent能够更好地理解用户意图,提供更准确、更个性化的服务,从而提高用户满意度和工作效率。未来,该方法有望推广到其他需要复杂决策和规划的任务中。

📄 摘要(原文)

Training tool-calling agents with reinforcement learning on multi-turn tasks remains challenging due to sparse outcome rewards and difficult credit assignment across conversation turns. We present the first application of MT-GRPO (Multi-Turn Group Relative Policy Optimization) combined with GTPO (Generalized Token-level Policy Optimization) for training a tool-calling agent on realistic customer service tasks with an LLM-based user simulator. Through systematic analysis of training rollouts, we discover that naively designed dense per-turn rewards degrade performance by up to 14 percentage points due to misalignment between reward discriminativeness and advantage direction. We introduce Iterative Reward Calibration, a methodology for designing per-turn rewards using empirical discriminative analysis of rollout data, and show that our GTPO hybrid advantage formulation eliminates the advantage misalignment problem. Applied to the Tau-Bench airline benchmark, our approach improves Qwen3.5-4B from 63.8 percent to 66.7 percent (+2.9pp) and Qwen3-30B-A3B from 58.0 percent to 69.5 percent (+11.5pp) -- with the trained 4B model exceeding GPT-4.1 (49.4 percent) and GPT-4o (42.8 percent) despite being 50 times smaller, and the 30.5B MoE model approaching Claude Sonnet 4.5 (70.0 percent). To our knowledge, these are the first published RL training results on Tau-Bench. We release our code, reward calibration analysis, and training recipes.