R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning
作者: Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Na Li, Chuchu Fan
分类: cs.AI, cs.CL, cs.SC
发布日期: 2025-05-27 (更新: 2025-09-29)
备注: 26 pages, 10 figures
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
R1-Code-Interpreter:通过监督学习和多阶段强化学习,提升LLM的代码推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码解释器 大语言模型 强化学习 课程学习 多轮推理 监督微调 自我检查
📋 核心要点
- 现有方法在训练LLM利用代码解释器处理多样化任务时缺乏有效的指导。
- R1-Code-Interpreter通过多阶段课程学习,优先利用高潜力样本进行强化学习,提升模型性能。
- 实验结果表明,R1-CI-14B在多种推理任务上超越了GPT-4o,并展现出自我检查能力。
📝 摘要(中文)
本文提出了R1-Code-Interpreter,一个通过多轮监督微调(SFT)和强化学习(RL)训练的文本LLM扩展模型,旨在自主生成多重代码查询以进行逐步推理。与以往侧重于数学或检索等狭窄领域的RL+工具使用工作不同,本文整理了144个不同的推理和规划任务,并表明在这些任务上训练通用代码解释器面临着任务异构性和有效样本稀缺的重大挑战。为了解决这个问题,本文引入了一种多阶段课程学习方法,该方法通过测量的改进潜力来划分训练样本。RL训练优先考虑具有更高潜力的样本,并逐渐转移到较低潜力的样本,从而将Qwen-2.5模型(3/7/14B)的平均RL增益从仅+3.4%提高到+9.3%。最终模型R1-CI-14B将37个测试任务的平均准确率从44.1%提高到72.4%,优于纯文本GPT-4o(58.6%)和带有代码解释器的GPT-4o(70.9%)。值得注意的是,R1-CI-14B还通过代码生成表现出涌现的自我检查行为。数据集、代码和模型可在https://github.com/yongchao98/R1-Code-Interpreter和https://huggingface.co/yongchao98上找到。
🔬 方法详解
问题定义:现有的大语言模型在利用代码解释器解决复杂推理和规划任务时,缺乏有效的训练方法,尤其是在任务类型多样化的情况下,模型难以泛化。此外,有效训练样本的稀缺性也限制了模型的性能提升。
核心思路:本文的核心思路是通过多阶段课程学习,将训练样本按照改进潜力进行划分,并优先利用高潜力样本进行强化学习。这种方法能够更有效地利用有限的训练资源,并引导模型学习更有效的推理策略。
技术框架:R1-Code-Interpreter的训练框架包括多轮监督微调(SFT)和强化学习(RL)两个阶段。首先,使用SFT对LLM进行初步训练,使其具备基本的代码生成能力。然后,使用RL对模型进行进一步优化,使其能够自主生成多重代码查询以进行逐步推理。多阶段课程学习被应用于RL阶段,以提高训练效率和模型性能。
关键创新:本文的关键创新在于提出了多阶段课程学习方法,该方法能够根据样本的改进潜力动态调整训练优先级。与传统的强化学习方法相比,这种方法能够更有效地利用有限的训练资源,并引导模型学习更有效的推理策略。此外,模型展现出的自我检查行为也是一个重要的发现。
关键设计:多阶段课程学习的关键在于如何评估样本的改进潜力。论文中具体评估方法未知。RL训练的具体奖励函数设计也未知。Qwen-2.5模型(3/7/14B)被用作基础模型,具体的网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
R1-CI-14B在37个测试任务上的平均准确率从44.1%提升到72.4%,显著优于纯文本GPT-4o(58.6%)和带有代码解释器的GPT-4o(70.9%)。通过多阶段强化学习,Qwen-2.5模型(3/7/14B)的平均RL增益从+3.4%提高到+9.3%。这些结果表明,R1-Code-Interpreter在代码推理方面具有显著的优势。
🎯 应用场景
R1-Code-Interpreter具有广泛的应用前景,可用于自动化编程、智能助手、数据分析、科学计算等领域。通过赋予LLM更强的代码推理能力,可以使其更好地理解和解决复杂问题,从而提高工作效率和创造力。该研究为未来开发更强大的通用人工智能系统奠定了基础。
📄 摘要(原文)
Practical guidance on training Large Language Models (LLMs) to leverage Code Interpreter across diverse tasks remains lacking. We present R1-Code-Interpreter, an extension of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and reinforcement learning (RL) to autonomously generate multiple code queries during step-by-step reasoning. Unlike prior RL + tool-use efforts focused on narrow domains such as math or retrieval, we curate 144 diverse reasoning and planning tasks and show that training a general-purpose Code Interpreter across them presents significant challenges due to task heterogeneity and scarcity of effective samples. To address this, we introduce a multi-stage curriculum learning approach that partitions training samples by measured improvement potential. The RL training prioritizes samples with higher potential and gradually shifts to lower-potential ones, increasing the average RL gains from merely +3.4% to +9.3% across Qwen-2.5 models (3/7/14B). Our final model, R1-CI-14B, improves average accuracy on the 37 test tasks from 44.1% to 72.4%, outperforming text-only GPT-4o (58.6%) and GPT-4o with Code Interpreter (70.9%). Notably, R1-CI-14B also exhibits emergent self-checking behavior through code generation. Datasets, Codes, and Models are available at https://github.com/yongchao98/R1-Code-Interpreter and https://huggingface.co/yongchao98.