From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning
作者: Xitai Jiang, Zihan Tang, Wenze Lin, Yang Yue, Shenzhi Wang, Gao Huang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-21
💡 一句话要点
SCRL:基于子问题课程学习的强化学习,提升LLM推理能力并解决信用分配问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 强化学习 课程学习 大型语言模型 推理能力 信用分配
📋 核心要点
- 现有基于结果的RLVR在复杂推理问题上效率低,因为正确答案的rollout很少,且无法利用失败尝试中的部分进展。
- SCRL通过从参考推理链中提取可验证的子问题,构建课程,将部分进展转化为可验证的学习信号。
- 实验表明,SCRL在多个数学推理基准测试中优于现有课程学习方法,尤其在难题上提升显著。
📝 摘要(中文)
本文提出了一种子问题课程强化学习(SCRL)框架,旨在提升大型语言模型(LLM)的推理能力。针对基于可验证奖励的强化学习(RLVR)在解决复杂问题时效率低下的问题,SCRL从参考推理链中提取可验证的子问题,并将最终子问题设置为原始问题。这种方法将解决复杂问题的部分进展转化为可验证的学习信号。SCRL采用子问题级别的归一化,独立地对每个子问题位置的奖励进行归一化,并将得到的优势分配给相应的答案跨度,从而实现更细粒度的信用分配,而无需外部规则或奖励模型。实验结果表明,SCRL能够将难题从梯度消失区中拉出来,并且随着原始问题变得更加困难,相对收益更大。在七个数学推理基准测试中,SCRL优于强大的课程学习基线,在Qwen3-4B-Base上平均准确率提高了+4.1个百分点,在Qwen3-14B-Base上提高了+1.9个百分点。在AIME24、AIME25和IMO-Bench上,SCRL进一步提高了Qwen3-4B-Base的pass@1 +3.7个百分点,pass@64 +4.6个百分点,表明在困难推理问题上具有更好的探索能力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,使用基于可验证奖励的强化学习时,由于奖励稀疏和信用分配困难导致的训练效率低下的问题。现有方法难以有效利用不完整的推理过程,导致学习信号不足。
核心思路:论文的核心思路是将复杂的推理问题分解为一系列可验证的子问题,并构建一个课程学习框架,从简单的子问题逐渐过渡到原始问题。通过这种方式,即使模型在解决原始问题时失败,也可以通过解决部分子问题获得奖励,从而提供更密集的学习信号。
技术框架:SCRL框架包含以下主要阶段:1) 子问题提取:从参考推理链中提取一系列子问题,每个子问题对应推理过程中的一个中间步骤。2) 课程构建:将子问题按照难度排序,构建一个课程,从简单的子问题开始训练,逐渐过渡到原始问题。3) 强化学习训练:使用强化学习算法训练LLM,奖励基于子问题的解决情况。4) 子问题级别归一化:对每个子问题的奖励进行独立归一化,并将优势分配给相应的答案跨度。
关键创新:SCRL的关键创新在于将课程学习与强化学习相结合,并引入了子问题级别的归一化方法。与传统的基于结果的强化学习相比,SCRL能够更有效地利用不完整的推理过程,提供更密集的学习信号,从而提高训练效率。子问题级别的归一化能够更精确地进行信用分配,避免了奖励信号的稀释。
关键设计:SCRL的关键设计包括:1) 子问题提取策略:如何从参考推理链中提取有效的子问题。2) 课程构建策略:如何对子问题进行排序,构建一个有效的课程。3) 奖励函数设计:如何设计奖励函数,鼓励模型解决子问题。4) 归一化方法:如何对子问题级别的奖励进行归一化,以实现更精确的信用分配。论文中具体使用了Qwen3系列模型作为基础LLM,并采用GRPO作为基线强化学习算法。
🖼️ 关键图片
📊 实验亮点
SCRL在七个数学推理基准测试中取得了显著的性能提升。在Qwen3-4B-Base上,平均准确率比GRPO提高了+4.1个百分点,在Qwen3-14B-Base上提高了+1.9个百分点。在AIME24、AIME25和IMO-Bench等更具挑战性的数据集上,SCRL进一步提高了Qwen3-4B-Base的pass@1 +3.7个百分点,pass@64 +4.6个百分点,表明SCRL在困难推理问题上具有更好的探索能力。
🎯 应用场景
SCRL方法具有广泛的应用前景,可以应用于各种需要复杂推理的任务,例如数学问题求解、代码生成、知识图谱推理等。该方法可以提高LLM在这些任务中的性能,使其能够更好地解决实际问题。此外,SCRL还可以用于训练更强大的LLM,使其能够处理更复杂的推理任务。
📄 摘要(原文)
Reinforcement learning from verifiable rewards (RLVR) has shown strong promise for LLM reasoning, but outcome-based RLVR remains inefficient on hard problems because correct final-answer rollouts are rare and sample-level credit assignment cannot use partial progress in failed attempts. We introduce SCRL (Subproblem Curriculum Reinforcement Learning), a curriculum RL framework that derives verifiable subproblems from reference reasoning chains and fixes the final subproblem as the original problem. This turns partial progress on hard problems into verifiable learning signals. Algorithmically, SCRL uses subproblem-level normalization, which normalizes rewards independently at each subproblem position and assigns the resulting advantages to the corresponding answer spans, enabling finer-grained credit assignment without external rubrics or reward models. Our analysis shows that subproblem curricula lift hard problems out of gradient dead zones, with larger relative gains as the original problem becomes harder. Across seven mathematical reasoning benchmarks, SCRL outperforms strong curriculum-learning baselines, improving average accuracy over GRPO by +4.1 points on Qwen3-4B-Base and +1.9 points on Qwen3-14B-Base. On AIME24, AIME25, and IMO-Bench, SCRL further improves pass@1 by +3.7 points and pass@64 by +4.6 points on Qwen3-4B-Base, indicating better exploration on hard reasoning problems.