ToolRL: Reward is All Tool Learning Needs

📄 arXiv: 2504.13958v1 📥 PDF

作者: Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-04-16

备注: 19 Pages, 12 Figures, 12 Tables


💡 一句话要点

ToolRL:奖励设计驱动LLM工具学习,提升泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具学习 强化学习 奖励设计 泛化能力

📋 核心要点

  1. 现有LLM通过SFT学习工具使用,但泛化能力不足,难以应对复杂场景。
  2. 提出ToolRL,通过系统性的奖励设计,提升LLM在工具选择和应用上的性能。
  3. 实验表明,ToolRL在多个基准测试中显著优于SFT模型,提升高达15%。

📝 摘要(中文)

当前的大型语言模型(LLMs)通常经过监督微调(SFT)以获得工具使用能力。然而,SFT难以泛化到不熟悉或复杂的工具使用场景。最近强化学习(RL)的进展,特别是R1类模型,已经展示了有希望的推理和泛化能力。然而,工具使用的奖励设计提出了独特的挑战:多个工具可能被调用,具有不同的参数,并且粗粒度的奖励信号,例如答案匹配,无法提供有效学习所需的细粒度反馈。在这项工作中,我们提出了第一个关于RL范式中工具选择和应用任务的奖励设计的综合研究。我们系统地探索了各种奖励策略,分析了它们的类型、规模、粒度和时间动态。基于这些见解,我们提出了一种为工具使用任务量身定制的原则性奖励设计,并使用Group Relative Policy Optimization(GRPO)训练LLMs。在各种基准上的实证评估表明,我们的方法产生了稳健、可扩展和稳定的训练,比基础模型提高了17%,比SFT模型提高了15%。这些结果突出了周到的奖励设计在增强LLMs的工具使用能力和泛化性能方面的关键作用。所有代码都已发布,以促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在工具使用场景中泛化能力不足的问题。现有的监督微调(SFT)方法虽然可以使LLMs具备一定的工具使用能力,但在面对不熟悉或复杂的工具使用场景时,性能会显著下降。这是因为SFT依赖于大量的标注数据,难以覆盖所有可能的工具使用方式和参数组合。此外,粗粒度的奖励信号(如答案匹配)无法提供有效的学习反馈。

核心思路:论文的核心思路是通过强化学习(RL)来训练LLMs的工具使用能力,并重点关注奖励函数的设计。作者认为,精心设计的奖励函数可以为LLMs提供更细粒度的反馈,从而提高其在工具选择和应用方面的性能。通过系统性地探索各种奖励策略,并分析它们的类型、规模、粒度和时间动态,最终提出了一种为工具使用任务量身定制的奖励设计。

技术框架:论文采用强化学习框架,使用Group Relative Policy Optimization (GRPO) 算法训练LLMs。整体流程包括:1) 定义工具使用任务;2) 设计奖励函数,包括奖励类型、规模、粒度和时间动态;3) 使用GRPO算法训练LLM,使其学习选择和应用工具;4) 在多个基准测试中评估模型性能。

关键创新:论文的关键创新在于对工具使用任务的奖励函数进行了系统性的研究和设计。与以往研究中常用的粗粒度奖励信号不同,论文提出了一种细粒度的奖励设计,可以为LLMs提供更有效的学习反馈。此外,论文还首次全面研究了奖励策略的类型、规模、粒度和时间动态对工具使用性能的影响。

关键设计:论文的关键设计在于奖励函数的具体形式。作者探索了多种奖励类型,例如基于工具选择的奖励、基于参数设置的奖励、基于结果的奖励等。同时,作者还研究了奖励的规模和粒度对学习效果的影响。此外,论文还考虑了奖励的时间动态,例如延迟奖励和稀疏奖励。最终,作者提出了一种综合性的奖励函数,可以有效地指导LLMs学习工具使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用论文提出的奖励设计方法训练的LLM,在多个基准测试中取得了显著的性能提升。相较于基础模型,性能提升了17%;相较于使用SFT方法训练的模型,性能提升了15%。这些结果表明,精心设计的奖励函数可以有效地提高LLM的工具使用能力和泛化性能。

🎯 应用场景

该研究成果可应用于智能助手、自动化流程、机器人控制等领域。通过提升LLM的工具使用能力,可以实现更智能、更高效的任务执行。例如,智能助手可以利用各种API自动完成用户指令,机器人可以根据环境信息选择合适的工具进行操作。未来,该研究有望推动人机协作的进一步发展。

📄 摘要(原文)

Current Large Language Models (LLMs) often undergo supervised fine-tuning (SFT) to acquire tool use capabilities. However, SFT struggles to generalize to unfamiliar or complex tool use scenarios. Recent advancements in reinforcement learning (RL), particularly with R1-like models, have demonstrated promising reasoning and generalization abilities. Yet, reward design for tool use presents unique challenges: multiple tools may be invoked with diverse parameters, and coarse-grained reward signals, such as answer matching, fail to offer the finegrained feedback required for effective learning. In this work, we present the first comprehensive study on reward design for tool selection and application tasks within the RL paradigm. We systematically explore a wide range of reward strategies, analyzing their types, scales, granularity, and temporal dynamics. Building on these insights, we propose a principled reward design tailored for tool use tasks and apply it to train LLMs using Group Relative Policy Optimization (GRPO). Empirical evaluations across diverse benchmarks demonstrate that our approach yields robust, scalable, and stable training, achieving a 17% improvement over base models and a 15% gain over SFT models. These results highlight the critical role of thoughtful reward design in enhancing the tool use capabilities and generalization performance of LLMs. All the codes are released to facilitate future research.