Scheduling Your LLM Reinforcement Learning with Reasoning Trees

📄 arXiv: 2510.24832v1 📥 PDF

作者: Hong Wang, Zhezheng Hao, Jian Luo, Chenxing Wei, Yao Shu, Lei Liu, Qiang Lin, Hande Dong, Jiawei Chen

分类: cs.AI

发布日期: 2025-10-28


💡 一句话要点

提出基于推理树结构的LLM强化学习调度算法Re-Schedule,提升数学推理准确率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 数据调度 推理树 数学推理

📋 核心要点

  1. 现有RLVR数据调度方法忽略了查询的推理树结构,导致调度效率不高。
  2. 提出Re-Schedule算法,利用推理分数(r-score)衡量查询难度,构建由易到难的学习课程。
  3. 实验结果表明,Re-Schedule在数学推理任务上显著提升了平均准确率,最高提升3.2%。

📝 摘要(中文)

本文提出了一种基于可验证奖励的强化学习(RLVR)方法,用于优化大型语言模型(LLM),其核心思想是将优化过程视为逐步编辑查询的“推理树”。该过程涉及探索节点(tokens)并在每个节点动态修改模型的策略。结合数据调度,可以进一步提高数据效率和准确性。然而,现有的RLVR数据调度方法通常依赖于基于路径的指标来对查询进行排序,忽略了这些查询的推理树结构。本文引入了一种新的指标,即推理分数(r-score),它基于推理树的结构来衡量查询的学习难度。基于r-score,我们提出了一种推理树调度算法(Re-Schedule),该算法构建了一个从结构简单(高r-score)到复杂(低r-score)的课程。在六个数学推理基准上的实验表明,Re-Schedule显著提高了平均准确率,实现了高达3.2%的增益。这些结果验证了我们的方法,并表明对推理树的结构理解为RLVR数据调度提供了更强大和更原则性的基础。

🔬 方法详解

问题定义:现有基于强化学习的LLM优化方法,特别是使用可验证奖励的强化学习(RLVR)方法,在数据调度方面存在不足。现有的数据调度方法主要依赖于路径相关的指标来评估查询的价值,忽略了查询内在的推理树结构。这种忽略导致了次优的数据调度策略,无法充分利用数据进行高效学习。因此,需要一种能够感知推理树结构的数据调度方法,以提升LLM在复杂推理任务中的性能。

核心思路:本文的核心思路是利用推理树的结构信息来指导数据调度。具体来说,论文提出了一种新的指标,即推理分数(r-score),用于量化查询的学习难度。r-score基于推理树的复杂程度进行计算,结构简单的推理树具有较高的r-score,而结构复杂的推理树具有较低的r-score。通过构建一个从高r-score到低r-score的课程,Re-Schedule算法能够引导LLM从简单到复杂地学习,从而提高学习效率和最终性能。

技术框架:Re-Schedule算法的技术框架主要包括以下几个步骤:1) 推理树构建:对于给定的查询,首先构建其对应的推理树。2) 推理分数计算:基于推理树的结构,计算每个查询的r-score。3) 数据排序:根据r-score对查询进行排序,形成一个由易到难的课程。4) 强化学习训练:使用排序后的数据进行RLVR训练,逐步优化LLM的策略。

关键创新:本文最重要的技术创新点在于提出了推理分数(r-score)这一概念,并将其应用于RLVR的数据调度。与现有的基于路径的指标相比,r-score能够更准确地反映查询的学习难度,从而实现更有效的数据调度。这种基于推理树结构的调度方法为RLVR提供了一个更强大和更原则性的基础。

关键设计:r-score的具体计算方式未知,论文中可能未详细描述。但是,可以推测r-score的计算可能涉及到推理树的深度、宽度、节点数量、分支因子等结构特征。具体参数设置、损失函数和网络结构等细节取决于所使用的RLVR算法和LLM架构,论文中可能没有详细说明,需要参考相关RLVR文献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Re-Schedule算法在六个数学推理基准上显著提高了平均准确率,实现了高达3.2%的增益。这一结果表明,基于推理树结构的调度方法能够有效地提升LLM在复杂推理任务中的性能。相较于传统的数据调度方法,Re-Schedule展现出了明显的优势。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的LLM应用场景,例如数学问题求解、代码生成、知识图谱推理等。通过更有效地利用训练数据,可以降低模型训练成本,提高模型在实际应用中的性能和可靠性。未来,该方法可以扩展到其他类型的推理任务和LLM架构。

📄 摘要(原文)

Using Reinforcement Learning with Verifiable Rewards (RLVR) to optimize Large Language Models (LLMs) can be conceptualized as progressively editing a query's `Reasoning Tree'. This process involves exploring nodes (tokens) and dynamically modifying the model's policy at each node. When combined with data scheduling, this process yields further gains in data efficiency and accuracy. However, existing RLVR data scheduling methods typically rely on path-based metrics to rank queries, overlooking the reasoning tree structures of these queries. In this paper, we introduce a novel metric, namely Reasoning Score (r-score), which measures the query's learning difficulty based on the structure of its reasoning tree. Based on the r-score, we propose the Reasoning Tree Schedule (Re-Schedule), a scheduling algorithm that constructs a curriculum progressing from structurally simple (high r-score) to complex (low r-score) queries. Experiments on six math-reasoning benchmarks show that Re-Schedule significantly improves average accuracy, achieving gains of up to 3.2%. These strong results validate our approach and demonstrate that a structural understanding of the reasoning tree provides a more powerful and principled foundation for RLVR data scheduling.