Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

📄 arXiv: 2505.07773v4 📥 PDF

作者: Xinji Mai, Haotian Xu, Zhong-Zhi Li, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

分类: cs.AI

发布日期: 2025-05-12 (更新: 2025-08-20)

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

提出ZeroTIR:通过强化学习训练LLM自主执行代码解决数学问题,并揭示其scaling law

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 工具集成推理 代码执行 数学问题求解

📋 核心要点

  1. 大型语言模型在数学推理中面临挑战,尤其是在需要精确计算和验证的场景下。
  2. 论文提出ZeroTIR,通过强化学习使LLM自主生成并执行代码解决数学问题,无需人工标注的工具使用数据。
  3. 实验表明,随着训练的进行,代码执行频率、响应长度和准确率均呈现可预测的增长趋势,验证了scaling law。

📝 摘要(中文)

大型语言模型(LLMs)在需要精确、可验证计算的数学推理任务中常常表现不佳。虽然基于结果奖励的强化学习(RL)可以增强基于文本的推理能力,但理解智能体如何自主地利用外部工具(如代码执行)仍然至关重要。本文研究了基于结果奖励的工具集成推理(ZeroTIR)的强化学习,训练基础LLM自发地生成和执行Python代码来解决数学问题,而无需监督的工具使用示例。研究表明,随着RL训练的进行,关键指标呈现可预测的scaling law。具体来说,观察到强烈的正相关关系,即训练步骤的增加会导致自发代码执行频率、平均响应长度以及最终任务准确性的提高。这表明在训练中投入的计算工作量与有效、工具增强的推理策略的出现之间存在可量化的关系。实现了一个具有解耦代码执行环境的鲁棒框架,并在标准RL算法和框架中验证了研究结果。实验表明,ZeroTIR在具有挑战性的数学基准测试中显著优于非工具ZeroRL基线。研究结果为自主工具使用的获取方式以及在Agent RL中的scaling law提供了基础性的理解,并为未来的研究提供了一个可复现的基准。

🔬 方法详解

问题定义:现有的大型语言模型在解决需要精确计算和验证的数学问题时,往往表现不佳。传统的强化学习方法虽然可以提升文本推理能力,但如何让智能体自主学习并利用外部工具(如代码执行)仍然是一个挑战。现有的方法通常需要大量的监督数据来指导工具的使用,这限制了其泛化能力和应用范围。

核心思路:本文的核心思路是通过强化学习,让LLM在没有人工标注的工具使用数据的情况下,自主地学习生成和执行代码来解决数学问题。这种方法旨在使LLM能够像人类一样,在解决复杂问题时,能够灵活地利用外部工具来辅助推理和计算。通过基于结果的奖励机制,鼓励智能体探索不同的代码执行策略,并最终找到最优的解决方案。

技术框架:ZeroTIR框架包含以下几个主要模块:1) LLM作为智能体,负责生成代码和文本回复;2) 一个解耦的代码执行环境,用于安全地执行生成的Python代码;3) 一个奖励函数,根据LLM的输出结果(例如,是否正确解决了数学问题)来提供反馈信号;4) 强化学习算法,用于更新LLM的参数,使其能够更好地生成和执行代码。整个流程是循环迭代的,LLM生成代码,代码在执行环境中运行,根据结果计算奖励,然后利用奖励更新LLM。

关键创新:该论文最重要的创新点在于提出了一个无需监督的工具集成推理框架ZeroTIR,它允许LLM自主学习如何利用代码执行来解决数学问题。与传统的需要大量人工标注数据的方法不同,ZeroTIR只需要基于结果的奖励信号,就可以训练LLM学会使用工具。此外,该研究还揭示了Agent RL中工具使用能力的scaling law,即随着训练的进行,代码执行频率、响应长度和准确率均呈现可预测的增长趋势。

关键设计:在具体实现上,论文采用了标准的强化学习算法,如PPO。奖励函数的设计至关重要,它需要能够准确地反映LLM的解题能力。代码执行环境需要保证安全性和可靠性,以防止恶意代码的执行。此外,论文还探索了不同的LLM架构和训练策略,以提高ZeroTIR的性能。具体的参数设置和网络结构细节可以在论文的实验部分找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ZeroTIR在具有挑战性的数学基准测试中显著优于非工具ZeroRL基线。具体来说,ZeroTIR在某些任务上的准确率提升了超过20%。此外,研究还发现,随着训练步骤的增加,代码执行频率、平均响应长度和最终任务准确性之间存在强烈的正相关关系,验证了工具使用能力的scaling law。

🎯 应用场景

该研究成果可应用于各种需要精确计算和推理的领域,例如科学研究、金融分析、软件开发等。通过让LLM自主地利用外部工具,可以显著提高其解决复杂问题的能力,并降低对人工干预的依赖。未来,该技术有望被应用于开发更智能、更自主的AI系统,从而推动人工智能的进一步发展。

📄 摘要(原文)

Large Language Models (LLMs) often struggle with mathematical reasoning tasks requiring precise, verifiable computation. While Reinforcement Learning (RL) from outcome-based rewards enhances text-based reasoning, understanding how agents autonomously learn to leverage external tools like code execution remains crucial. We investigate RL from outcome-based rewards for Tool-Integrated Reasoning, ZeroTIR, training base LLMs to spontaneously generate and execute Python code for mathematical problems without supervised tool-use examples. Our central contribution is we demonstrate that as RL training progresses, key metrics scale predictably. Specifically, we observe strong positive correlations where increased training steps lead to increases in the spontaneous code execution frequency, the average response length, and, critically, the final task accuracy. This suggests a quantifiable relationship between computational effort invested in training and the emergence of effective, tool-augmented reasoning strategies. We implement a robust framework featuring a decoupled code execution environment and validate our findings across standard RL algorithms and frameworks. Experiments show ZeroTIR significantly surpasses non-tool ZeroRL baselines on challenging math benchmarks. Our findings provide a foundational understanding of how autonomous tool use is acquired and scales within Agent RL, offering a reproducible benchmark for future studies. Code is released at \href{https://github.com/yyht/openrlhf_async_pipline}{https://github.com/yyht/openrlhf_async_pipline}.