Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

📄 arXiv: 2505.00024v2 📥 PDF

作者: Shaokun Zhang, Yi Dong, Jieyu Zhang, Jan Kautz, Bryan Catanzaro, Andrew Tao, Qingyun Wu, Zhiding Yu, Guilin Liu

分类: cs.CL, cs.AI

发布日期: 2025-04-25 (更新: 2025-05-12)

备注: 17 pages, 6 tables, 12 figures. - update new results - add more details


💡 一句话要点

Nemotron-Research-Tool-N1:通过强化推理探索工具使用语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具调用 大型语言模型 强化学习 规则驱动 推理模型

📋 核心要点

  1. 现有工具调用LLM主要依赖模仿学习,泛化能力受限,难以应对复杂场景。
  2. 提出基于规则的强化学习方法,仅需格式和功能正确性奖励,无需人工标注推理轨迹。
  3. 实验表明,该方法训练的Tool-N1模型在多个基准测试中超越GPT-4o,且纯RL优于SFT-then-RL。

📝 摘要(中文)

本文提出Nemotron-Research-Tool-N1,一系列基于规则的强化学习训练的工具调用推理模型,旨在提升大型语言模型(LLM)的工具调用能力。现有方法主要依赖于从更强大的模型中提炼出的轨迹进行监督微调(SFT),这通常导致模仿推理,限制了泛化能力。Tool-N1采用二元强化学习奖励,仅评估工具调用的格式有效性和功能正确性,而非强制监督中间的推理过程。这种轻量级监督使模型能够独立发展推理策略,无需依赖带注释的轨迹。在多个主要基准测试中,Tool-N1-7B/14B明显优于GPT-4o。通过对5,518个提炼的推理轨迹进行系统研究,比较了SFT、RL和SFT-then-RL流程,发现广泛采用的SFT-then-RL范式并不一定优于纯RL。

🔬 方法详解

问题定义:现有工具调用大型语言模型的方法主要依赖于监督微调,使用从更强大的模型中蒸馏得到的推理轨迹。这种方法存在的问题是模型容易模仿训练数据中的推理过程,而缺乏自主探索和泛化能力,尤其是在面对新的或复杂的任务时表现不佳。此外,获取高质量的推理轨迹需要大量的人工标注或计算资源。

核心思路:本文的核心思路是利用规则驱动的强化学习来训练工具调用模型。与监督学习不同,强化学习不需要详细的推理轨迹作为监督信号,而是通过奖励函数来引导模型学习。具体来说,模型只需要保证工具调用的格式正确和功能正确,就可以获得奖励。这种方式鼓励模型自主探索不同的推理策略,从而提高泛化能力。

技术框架:Nemotron-Research-Tool-N1的训练框架主要包括以下几个部分:首先,使用一个大型语言模型作为基础模型。然后,定义一个规则驱动的奖励函数,该函数根据工具调用的格式和功能正确性来给予奖励。接着,使用强化学习算法(具体算法未知)来训练模型,使其能够最大化累积奖励。最后,对训练好的模型进行评估,并在必要时进行微调。

关键创新:该论文的关键创新在于使用规则驱动的强化学习来训练工具调用模型,避免了对大量人工标注的推理轨迹的依赖。此外,论文还发现,纯强化学习方法在某些情况下优于传统的SFT-then-RL方法,这挑战了以往的认知。

关键设计:论文中关于强化学习算法、奖励函数和网络结构的具体细节未知。但可以推测,奖励函数的设计至关重要,需要能够准确地反映工具调用的质量。此外,探索合适的强化学习算法和调整超参数也是关键步骤。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Nemotron-Research-Tool-N1-7B/14B在多个工具调用基准测试中显著优于GPT-4o。此外,研究还发现,纯强化学习方法在训练工具调用模型时,性能可以超过传统的SFT-then-RL范式,这为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可广泛应用于智能助手、自动化流程、科学研究等领域。通过赋予语言模型更强的工具调用能力,可以实现更复杂的任务自动化,提高工作效率,并为用户提供更智能化的服务。例如,在科学研究中,可以利用工具调用模型自动进行数据分析、模拟实验等。

📄 摘要(原文)

Enabling large language models with external tools has become a pivotal strategy for extending their functionality beyond text space. To enhance LLMs' tool-calling abilities, previous approaches primarily rely on supervised fine-tuning (SFT) with trajectories distilled from stronger models, often resulting in imitative reasoning that limits generalization. In this work, we explore rule-based reinforcement learning to enhance tool-calling in LLMs, resulting in Nemotron-Research-Tool-N1, a series of tool-calling reasoning models. Rather than enforcing supervision over intermediate distilled reasoning traces, Tool-N1 is trained with a binary RL reward that assesses only the format validity and functional correctness of tool invocations. This lightweight supervision allows the model to develop reasoning strategies independently, without relying on annotated trajectories. Experiments on several major benchmarks show that Tool-N1-7B/14B clearly outperform GPT-4o. We conduct a systematic study on the design of rule-based reinforcement learning strategies for training tool-calling models. Using 5,518 distilled reasoning trajectories, we compare SFT, RL, and the SFT-then-RL pipeline, finding that the widely adopted SFT-then-RL paradigm does not necessarily outperform pure RL.