A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula

📄 arXiv: 2603.24202v1 📥 PDF

作者: Cansu Sancaktar, David Zhang, Gabriel Synnaeve, Taco Cohen

分类: cs.LG, cs.AI

发布日期: 2026-03-25


💡 一句话要点

提出基于多轮合成数据和课程学习的强化学习方法,提升代码生成能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 代码生成 合成数据 课程学习 多轮迭代 语言模型 数据增强

📋 核心要点

  1. 现有强化学习方法在提升代码生成能力时,面临数据多样性和结构不足的挑战,难以实现大规模性能提升。
  2. 论文提出一种多轮合成数据生成流程,教师模型迭代改进问题,生成结构化的难度递进,支持课程学习。
  3. 实验表明,该方法能有效提升模型在领域内代码生成和领域外数学问题上的性能,并分析了课程设计和数据多样性的影响。

📝 摘要(中文)

强化学习(RL)已成为提升大型语言模型(LLM)性能的有效范式,但如何在大规模上保持性能提升仍然是一个挑战,因为数据多样性和结构而非数据量本身成为限制因素。本文提出了一种可扩展的多轮合成数据生成流程,其中教师模型基于上下文中的学生表现摘要迭代地改进问题,从而产生结构化的难度递进,而无需对教师模型进行微调。与单轮生成相比,这种多轮方法显著提高了有效合成问题的产量,并自然地产生了垫脚石,即同一核心任务的更简单和更难的变体,从而支持基于课程的训练。本文系统地研究了任务难度、课程安排和环境多样性如何在Llama3.1-8B Instruct和Qwen3-8B Base模型系列中相互作用,并在Qwen2.5-32B上进行了额外的缩放实验。结果表明,合成增强始终能提高领域内代码性能,并在大多数情况下提高领域外数学性能,并且本文提供了关于课程设计和数据多样性如何共同塑造RL训练动态的经验见解。

🔬 方法详解

问题定义:现有基于强化学习的代码生成方法,在扩展到更大规模时,面临数据多样性和结构性不足的问题。简单地增加数据量并不能持续提升性能,需要更有效的数据生成和利用策略。现有方法难以生成具有难度递进关系的数据,不利于模型的学习。

核心思路:论文的核心思路是通过多轮迭代的合成数据生成流程,让教师模型根据学生模型的表现,逐步改进问题,从而生成具有结构化难度递进关系的数据。这种方法可以提高有效合成问题的产量,并自然地产生同一任务的简单和困难变体,支持课程学习。

技术框架:整体框架包含一个教师模型和一个学生模型。教师模型负责生成代码生成任务,学生模型负责解决这些任务。教师模型根据学生模型的表现(例如,代码是否能够成功运行),迭代地改进任务,生成更难或更简单的变体。这个过程重复多轮,最终生成一个包含不同难度任务的合成数据集。然后,使用这个数据集对学生模型进行强化学习训练。

关键创新:关键创新在于多轮迭代的合成数据生成流程,以及基于学生模型表现的自动难度调整机制。这种方法无需人工干预,即可生成高质量、具有难度递进关系的数据,有效提升了强化学习的训练效果。与单轮生成相比,多轮方法显著提高了有效合成问题的产量。

关键设计:在多轮迭代过程中,教师模型根据学生模型的反馈(例如,代码是否能够成功运行),调整任务的难度。具体的调整策略可以包括修改输入、增加约束条件、改变目标等。论文还研究了不同的课程学习策略,例如,从简单到困难的任务排序,以及混合不同难度的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用合成数据增强可以持续提高领域内代码生成性能,并在大多数情况下提高领域外数学性能。在Llama3.1-8B Instruct和Qwen3-8B Base模型系列上进行了实验,并在Qwen2.5-32B上进行了扩展实验,验证了该方法的有效性。论文还深入分析了课程设计和数据多样性对强化学习训练动态的影响。

🎯 应用场景

该研究成果可应用于提升各种代码生成任务的性能,例如代码补全、代码翻译、代码修复等。通过自动生成高质量的训练数据,可以降低对人工标注数据的依赖,加速模型开发过程。此外,该方法还可以应用于其他序列生成任务,例如文本摘要、机器翻译等。

📄 摘要(原文)

Reinforcement learning (RL) has emerged as a powerful paradigm for improving large language models beyond supervised fine-tuning, yet sustaining performance gains at scale remains an open challenge, as data diversity and structure, rather than volume alone, become the limiting factor. We address this by introducing a scalable multi-turn synthetic data generation pipeline in which a teacher model iteratively refines problems based on in-context student performance summaries, producing structured difficulty progressions without any teacher fine-tuning. Compared to single-turn generation, this multi-turn approach substantially improves the yield of valid synthetic problems and naturally produces stepping stones, i.e. easier and harder variants of the same core task, that support curriculum-based training. We systematically study how task difficulty, curriculum scheduling, and environment diversity interact during RL training across the Llama3.1-8B Instruct and Qwen3-8B Base model families, with additional scaling experiments on Qwen2.5-32B. Our results show that synthetic augmentation consistently improves in-domain code and in most cases out-of-domain math performance, and we provide empirical insights into how curriculum design and data diversity jointly shape RL training dynamics.