Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination
作者: Jiasheng Zheng, Boxi Cao, Boxi Yu, Yuzhong Zhang, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
分类: cs.CL, cs.SE
发布日期: 2026-05-29
备注: Work in progress
💡 一句话要点
提出原子分解与重组(ADR)框架,提升代码RLVR的可扩展性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 强化学习 可验证奖励 原子分解 数据合成
📋 核心要点
- 现有RLVR方法依赖启发式种子扩展合成数据,导致数据新颖性和难度受限,训练价值无法有效扩展。
- ADR框架将代码任务分解为原子元素,并通过受控重组生成新任务,从而产生更具挑战性和原创性的数据。
- 实验表明,ADR在代码能力提升方面优于现有基线,并在多个下游领域展现出显著改进。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)已成为塑造大型语言模型(LLM)卓越编码能力的关键。然而,RLVR的可扩展性受到具有足够挑战性的、针对模型能力边界的可验证代码任务的稀缺性限制。以往的研究通常依赖于启发式种子扩展进行数据合成,这严重限制了新颖性和难度。因此,此类数据的训练价值无法与其合成规模成比例增长。为此,我们提出了原子分解与重组(ADR),这是一种通过分解为原子元素和受控重组来生成可验证代码任务的新框架,从而能够生成真正新颖且具有挑战性的可验证代码任务。实验和分析表明,ADR在原创性、难度、多样性和测试质量方面优于现有基线,并在算法编程、工具使用和数据科学等不同下游领域的RLVR中持续提供更大的代码能力改进。我们的工作为新型代码任务合成和可扩展的RLVR训练提供了一种新的范例。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)方法在训练大型语言模型(LLM)的代码能力时,面临着缺乏足够具有挑战性的、能够触及模型能力边界的可验证代码任务的问题。以往方法依赖于启发式种子扩展,导致生成的数据集在难度和新颖性上存在局限,训练效果难以随数据规模线性提升。
核心思路:ADR的核心思路是将复杂的代码任务分解为更小的、原子级别的元素,然后通过控制这些原子元素的重组过程,生成新的、具有挑战性的代码任务。这种方法旨在突破启发式种子扩展的限制,创造出更具原创性和多样性的训练数据。
技术框架:ADR框架包含以下主要阶段:1) 原子分解:将现有代码任务分解为最小的、可验证的原子操作单元。2) 受控重组:根据预定义的规则和约束,将这些原子单元重新组合成新的代码任务。3) 验证与过滤:对生成的新任务进行验证,确保其可解性,并根据难度和多样性指标进行过滤,选择高质量的任务用于训练。
关键创新:ADR的关键创新在于其原子分解和受控重组的策略。与传统的启发式方法相比,ADR能够更灵活地生成新的代码任务,并且可以更好地控制任务的难度和多样性。通过这种方式,ADR能够为RLVR提供更有效的训练数据,从而提升LLM的代码能力。
关键设计:ADR的关键设计包括:1) 原子操作的定义:需要仔细定义原子操作的粒度,过大可能限制重组的灵活性,过小可能导致生成无效或过于简单的任务。2) 重组规则的设计:需要设计合理的重组规则,以确保生成的新任务在语法和语义上是正确的,并且具有一定的难度。3) 验证与过滤机制:需要设计有效的验证和过滤机制,以确保生成的新任务是可解的,并且具有一定的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ADR在原创性、难度、多样性和测试质量方面均优于现有基线方法。在算法编程、工具使用和数据科学等多个下游任务中,使用ADR生成的数据进行RLVR训练,能够显著提升LLM的代码能力。具体性能提升数据未知,但总体趋势表明ADR具有明显的优势。
🎯 应用场景
ADR框架可应用于各种需要代码生成能力的场景,例如自动化软件开发、智能编程助手、数据科学任务自动化等。通过生成更具挑战性和多样性的训练数据,ADR可以提升LLM在这些领域的应用效果,并加速相关技术的落地。此外,该方法也为可验证代码任务合成提供了一种新的思路。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.