Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math

作者: Bo Pang, Deqian Kong, Silvio Savarese, Caiming Xiong, Yingbo Zhou

分类: cs.AI, cs.CL

发布日期: 2025-10-30

备注: 9 pages

💡 一句话要点

提出推理课程，通过数学引导提升大语言模型在多领域的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 课程学习 推理能力 数学推理 多领域学习 认知技能 通用人工智能

📋 核心要点

现有强化学习方法主要集中在数学和代码领域，缺乏对大语言模型在更广泛领域推理能力的提升。
推理课程通过两阶段学习，先在数学领域培养推理能力，再迁移到其他领域，实现跨领域推理能力的提升。
实验表明，该方法在Qwen3-4B和Llama-3.1-8B模型上均取得了显著提升，证明了其有效性。

📝 摘要（中文）

本文提出了一种名为“推理课程”（Reasoning Curriculum）的简单两阶段课程学习方法，旨在提升大语言模型（LLMs）的推理能力。该方法首先在与预训练对齐的领域（如数学）中激发推理技能，然后通过联合强化学习（RL）在其他领域中调整和完善这些技能。第一阶段执行简短的冷启动，然后进行仅数学的强化学习，以发展推理技能。第二阶段在混合领域数据上运行联合强化学习，以转移和巩固这些技能。该课程是最小化的且与骨干模型无关，除了标准的可验证性检查之外，不需要专门的奖励模型。在Qwen3-4B和Llama-3.1-8B上，对多领域套件进行评估，推理课程产生了持续的收益。消融研究和认知技能分析表明，两个阶段都是必要的，并且数学优先的激发增加了解决复杂问题所需的认知行为。推理课程为通用推理提供了一个紧凑、易于采用的方案。

🔬 方法详解

问题定义：现有的大语言模型推理能力主要集中在数学和代码等特定领域，缺乏在更广泛领域的通用推理能力。现有的强化学习方法通常需要大量的领域特定数据和复杂的奖励模型，难以推广到其他领域。

核心思路：本文的核心思路是通过课程学习，先在一个易于验证和奖励的领域（数学）中培养大语言模型的推理能力，然后将这些能力迁移到其他领域。这种方法利用了数学领域的结构化特性和可验证性，从而更容易训练出具有较强推理能力的模型。

技术框架：推理课程包含两个主要阶段：第一阶段是数学领域的强化学习，旨在培养基本的推理能力。该阶段首先进行一个简短的冷启动，然后使用可验证的奖励信号进行强化学习。第二阶段是多领域联合强化学习，旨在将数学领域学到的推理能力迁移到其他领域。该阶段使用混合领域的数据进行训练，并使用联合奖励信号来优化模型在所有领域的性能。

关键创新：该方法的主要创新在于提出了一个简单有效的两阶段课程学习框架，可以有效地提升大语言模型在多领域的推理能力。与现有的方法相比，该方法不需要大量的领域特定数据和复杂的奖励模型，更易于采用和推广。此外，该方法强调了数学领域在培养推理能力中的重要作用，并设计了一个数学优先的训练策略。

关键设计：在第一阶段，使用标准的强化学习算法（例如PPO）进行训练，奖励信号基于数学问题的正确答案。在第二阶段，使用混合领域的数据进行训练，奖励信号可以是各个领域的特定奖励函数，也可以是通用的奖励函数。论文中没有明确说明具体的参数设置、损失函数和网络结构，这些细节可能取决于具体的模型和任务。

🖼️ 关键图片

📊 实验亮点

该研究在Qwen3-4B和Llama-3.1-8B模型上进行了实验，结果表明，推理课程可以显著提升模型在多领域的推理能力。消融实验表明，两个阶段的课程学习都是必要的，并且数学优先的训练策略可以提高模型解决复杂问题的能力。具体的性能数据和提升幅度在论文中没有明确给出，需要查阅原文。

🎯 应用场景

该研究成果可应用于各种需要通用推理能力的场景，例如智能客服、自动问答、文本摘要、机器翻译等。通过提升大语言模型的推理能力，可以使其更好地理解和处理复杂的问题，从而提高其在各种应用中的性能和效率。此外，该方法还可以用于开发更智能的机器人和自动化系统。

📄 摘要（原文）

Reinforcement learning (RL) can elicit strong reasoning in large language models (LLMs), yet most open efforts focus on math and code. We propose Reasoning Curriculum, a simple two-stage curriculum that first elicits reasoning skills in pretraining-aligned domains such as math, then adapts and refines these skills across other domains via joint RL. Stage 1 performs a brief cold start and then math-only RL with verifiable rewards to develop reasoning skills. Stage 2 runs joint RL on mixed-domain data to transfer and consolidate these skills. The curriculum is minimal and backbone-agnostic, requiring no specialized reward models beyond standard verifiability checks. Evaluated on Qwen3-4B and Llama-3.1-8B over a multi-domain suite, reasoning curriculum yields consistent gains. Ablations and a cognitive-skill analysis indicate that both stages are necessary and that math-first elicitation increases cognitive behaviors important for solving complex problems. Reasoning Curriculum provides a compact, easy-to-adopt recipe for general reasoning.

Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理