Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

作者: Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov

分类: cs.AI, cs.CL

发布日期: 2026-05-07

💡 一句话要点

提出ScaleLogic框架，研究逻辑表达能力对RL训练LLM长程推理的影响

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 逻辑推理 长程推理 ScaleLogic 表达能力 幂律缩放

📋 核心要点

现有方法缺乏可控、可扩展的环境，难以系统研究RL训练LLM推理能力时，任务难度与训练规模的scaling规律。
提出ScaleLogic框架，通过控制推理深度和逻辑表达能力，系统研究逻辑表达能力对RL训练LLM长程推理的影响。
实验表明，RL训练计算量与推理深度之间存在幂律关系，且指数随逻辑表达能力单调增加，更强的表达能力带来更好的下游迁移性能。

📝 摘要（中文）

强化学习(RL)已被用于提升大型语言模型(LLM)的推理能力，但由于缺乏可控、可扩展的环境，针对训练如何随任务难度扩展的系统性研究受到阻碍。我们引入ScaleLogic，一个合成逻辑推理框架，可以独立控制两个难度轴：所需证明规划的深度（即horizon）和底层逻辑的表达能力。我们提出的框架支持广泛的逻辑：从简单的仅包含蕴含关系的逻辑（“if-then”）到更具表达能力的一阶推理，包含合取（“and”）、析取（“or”）、否定（“not”）和全称量词（“for all”）。使用该框架，我们表明RL训练计算量T与推理深度D之间存在幂律关系（T∝D^γ，R²>0.99），并且缩放指数γ随逻辑表达能力单调增加，从1.04到2.60。在下游数学和通用推理基准测试中，与表达能力较弱的训练设置相比，更具表达能力的训练设置产生更大的性能提升（高达+10.66个点）和更具计算效率的迁移，这表明模型训练的内容，而不仅仅是训练的量，会影响下游迁移。我们进一步表明，幂律关系适用于多种RL方法，并且基于课程的训练可以显著提高缩放效率。

🔬 方法详解

问题定义：现有研究缺乏一个可控且可扩展的环境，来系统性地研究如何通过强化学习训练大型语言模型，使其具备长程推理能力。特别是在逻辑推理方面，难以控制推理的深度和逻辑的复杂性，从而无法有效分析训练数据特性对模型性能的影响。现有方法难以区分是训练数据量不足，还是训练数据的表达能力不够，导致模型推理能力不足。

核心思路：论文的核心思路是构建一个合成的逻辑推理环境，即ScaleLogic，该环境允许独立控制推理的深度（horizon）和逻辑的表达能力。通过控制这两个关键因素，可以系统地研究不同逻辑表达能力的数据对强化学习训练LLM推理能力的影响。通过这种方式，可以更清晰地了解模型学习推理的瓶颈，并指导更有效的训练策略。

技术框架：ScaleLogic框架包含以下几个主要组成部分：1) 逻辑规则定义：定义了一系列逻辑规则，包括蕴含、合取、析取、否定和全称量词等。2) 推理任务生成：根据设定的推理深度和逻辑表达能力，自动生成推理任务。每个任务包含一组前提和需要证明的结论。3) 强化学习训练：使用强化学习算法（如PPO）训练LLM，使其学会根据前提推导出结论。4) 评估：在下游数学和通用推理基准测试中评估训练后的LLM的推理能力。

关键创新：该论文最重要的技术创新在于提出了ScaleLogic框架，这是一个可控且可扩展的逻辑推理环境。与以往的研究不同，ScaleLogic允许研究人员独立控制推理的深度和逻辑的表达能力，从而可以更系统地研究不同训练数据特性对模型性能的影响。此外，论文还揭示了RL训练计算量与推理深度之间的幂律关系，并发现逻辑表达能力越强，幂律指数越大。

关键设计：ScaleLogic的关键设计包括：1) 逻辑表达能力控制：通过选择不同的逻辑规则组合，控制推理任务的逻辑表达能力。2) 推理深度控制：通过调整推理步骤的数量，控制推理任务的深度。3) 奖励函数设计：设计合适的奖励函数，鼓励LLM进行正确的推理。例如，如果LLM成功推导出结论，则给予正奖励；否则，给予负奖励。4) 课程学习：采用课程学习策略，先从简单的推理任务开始训练，然后逐渐增加任务的难度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RL训练计算量T与推理深度D之间存在幂律关系（T∝D^γ，R²>0.99），并且缩放指数γ随逻辑表达能力单调增加，从1.04到2.60。在下游数学和通用推理基准测试中，与表达能力较弱的训练设置相比，更具表达能力的训练设置产生更大的性能提升（高达+10.66个点），并提高了计算效率。这表明训练数据的表达能力对下游迁移性能有显著影响。

🎯 应用场景

该研究成果可应用于提升LLM在需要复杂逻辑推理的场景下的性能，例如智能问答、代码生成、定理证明等。通过ScaleLogic框架，可以更好地理解和控制LLM的推理能力，并指导更有效的训练策略。未来，该框架可以扩展到其他类型的推理任务，例如常识推理和因果推理。

📄 摘要（原文）

Reinforcement learning (RL) has been applied to improve large language model (LLM) reasoning, yet the systematic study of how training scales with task difficulty has been hampered by the lack of controlled, scalable environments. We introduce ScaleLogic, a synthetic logical reasoning framework that offers independent control over two axes of difficulty: the depth of the required proof planning (i.e., the horizon) and the expressiveness of the underlying logic. Our proposed framework supports a wide range of logics: from simple implication-only logic ("if-then") towards more expressive first-order reasoning with conjunction ("and"), disjunction ("or"), negation ("not"), and universal quantification ("for all"). Using this framework, we show that the RL training compute $T$ follows a power law with respect to reasoning depth $D$ ($T \propto D^γ$, $R^{2} > 0.99$), and that the scaling exponent $γ$ increases monotonically with logical expressiveness, from $1.04$ to $2.60$. On downstream mathematics and general reasoning benchmarks, more expressive training settings yield both larger performance gains (up to $+10.66$ points) and more compute-efficient transfer compared to less expressive settings, demonstrating that what a model is trained on, not just how much it is trained, shapes downstream transfer. We further show that the power-law relationship holds across multiple RL methods, and curriculum-based training substantially improves scaling efficiency.

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理