Advancing SLM Tool-Use Capability using Reinforcement Learning

📄 arXiv: 2509.04518v2 📥 PDF

作者: Dhruvi Paprunia, Vansh Kharidia, Pankti Doshi

分类: cs.CL

发布日期: 2025-09-03 (更新: 2025-09-08)


💡 一句话要点

利用强化学习GRPO提升小语言模型(SLM)的工具使用能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小语言模型 强化学习 工具使用 组相对策略优化 函数调用 JSON输出 奖励函数

📋 核心要点

  1. 小语言模型(SLM)在资源受限的环境下,准确集成工具使用仍然面临挑战,限制了其在实际应用中的潜力。
  2. 论文提出利用组相对策略优化(GRPO)强化学习方法,通过设计奖励系统,优化SLM的工具选择和参数使用。
  3. 实验表明,GRPO能够显著提高SLM在工具使用能力方面的准确性,并提供了一种计算高效的训练方法。

📝 摘要(中文)

本文研究了如何利用强化学习,特别是组相对策略优化(GRPO),来提高小语言模型(SLM)的工具使用准确性。由于工具使用能力对于访问外部数据和内部资源至关重要,因此它已成为大型语言模型(LLM)的一个关键特征。虽然LLM在这方面取得了显著进展,但SLM在准确集成工具使用方面仍然面临挑战,尤其是在资源受限的环境中。通过设计一个明确的奖励系统,该系统强化结构化的JSON输出、正确的工具选择和精确的参数使用,本文证明了GRPO能够使SLM在工具使用能力(函数调用/JSON输出)方面取得显著改进。该方法提供了一种计算效率高的训练方法,增强了SLM在实际AI应用中的实际部署。

🔬 方法详解

问题定义:论文旨在解决小语言模型(SLM)在工具使用方面的不足,尤其是在资源受限的环境下。现有方法,如直接训练SLM进行工具调用,往往难以达到大型语言模型(LLM)的性能,且对计算资源要求较高。SLM难以准确选择合适的工具并正确使用参数,导致工具使用效果不佳。

核心思路:论文的核心思路是利用强化学习,通过奖励机制引导SLM学习如何更有效地使用工具。具体而言,采用组相对策略优化(GRPO)算法,通过奖励正确的工具选择、精确的参数使用以及结构化的JSON输出,来优化SLM的策略。这种方法旨在使SLM能够更准确、更可靠地进行工具调用。

技术框架:整体框架包括以下几个主要步骤:1) 定义工具使用任务,例如函数调用或JSON输出;2) 构建SLM作为智能体,负责选择工具和参数;3) 设计奖励函数,用于评估SLM的工具使用效果;4) 使用GRPO算法训练SLM,使其最大化累积奖励。训练过程中,SLM与环境交互,根据奖励调整策略,最终学会高效地使用工具。

关键创新:论文的关键创新在于将GRPO应用于SLM的工具使用能力提升。与传统的监督学习方法相比,强化学习能够更好地处理工具使用的复杂性和不确定性。GRPO通过组相对策略优化,能够更有效地探索策略空间,找到更优的工具使用策略。此外,论文设计的奖励函数能够有效地引导SLM学习正确的工具选择和参数使用方法。

关键设计:奖励函数是关键的设计要素。论文设计了一个多方面的奖励系统,包括:1) 结构化JSON输出奖励,鼓励SLM生成符合规范的JSON格式;2) 正确工具选择奖励,奖励SLM选择正确的工具来完成任务;3) 精确参数使用奖励,奖励SLM使用正确的参数值。GRPO算法的具体参数设置(如学习率、折扣因子等)以及SLM的网络结构(如Transformer层数、隐藏层大小等)也会影响最终的性能。

📊 实验亮点

研究结果表明,通过GRPO训练,SLM在工具使用准确性方面取得了显著提升。具体性能数据(例如,工具选择准确率、参数使用精确度)和与基线方法的对比结果(例如,监督学习方法)需要在论文中查找。总体而言,GRPO为提升SLM的工具使用能力提供了一种有效的解决方案。

🎯 应用场景

该研究成果可应用于各种需要SLM进行工具调用的场景,例如智能助手、自动化客服、数据分析等。通过提升SLM的工具使用能力,可以使其更好地完成复杂任务,提高工作效率,降低运营成本。未来,该方法有望扩展到更多类型的工具和更复杂的任务中,推动SLM在实际应用中的广泛部署。

📄 摘要(原文)

In an era where tool-augmented AI agents are becoming increasingly vital, our findings highlight the ability of Group Relative Policy Optimization (GRPO) to empower SLMs, which are traditionally constrained in tool use. The ability to use tools effectively has become a defining feature of Large Language Models (LLMs), allowing them to access external data and internal resources. As AI agents grow more sophisticated, tool-use capabilities have become indispensable. While LLMs have made significant progress in this area, Small Language Models (SLMs) still face challenges in accurately integrating tool use, especially in resource-constrained settings. This study investigates how Reinforcement Learning, specifically Group Relative Policy Optimization (GRPO), can enhance the tool-use accuracy of SLMs. By designing a well-defined reward system that reinforces structured JSON output, correct tool selection, and precise parameter usage, we demonstrate that GRPO enables SLMs to achieve significant improvements in tool-use capabilities (function calling/JSON output). Our approach provides a computationally efficient training method that enhances SLMs practical deployment in real-world AI applications.