Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

📄 arXiv: 2509.07980v2 📥 PDF

作者: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu

分类: cs.CL

发布日期: 2025-09-09 (更新: 2025-09-12)

备注: Project website: https://zhengkid.github.io/Parallel_R1.github.io/

🔗 代码/项目: GITHUB


💡 一句话要点

提出Parallel-R1框架,通过强化学习赋能LLM并行思维能力,提升复杂推理任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 并行思维 数学推理 课程学习

📋 核心要点

  1. 现有方法依赖合成数据上的监督微调,缺乏探索和泛化能力,难以有效激活LLM的并行思维。
  2. Parallel-R1通过强化学习框架,结合渐进式课程学习,解决并行思维训练的冷启动问题。
  3. 实验表明,Parallel-R1能有效提升LLM在数学推理任务上的性能,最高提升达42.9%。

📝 摘要(中文)

本文提出Parallel-R1,一种新颖的强化学习框架,旨在提升大型语言模型(LLMs)在复杂现实推理任务中的并行思维能力。现有方法主要依赖于在合成数据上进行监督微调(SFT),鼓励模型进行教师强制模仿,而非探索和泛化。Parallel-R1采用渐进式课程学习,显式地解决了强化学习训练并行思维时的冷启动问题。首先,在提示生成的、来自较简单任务的轨迹上使用SFT,以培养并行思维能力,然后过渡到强化学习,以探索和泛化这种技能到更困难的问题上。在MATH、AMC23和AIME等多个数学基准测试上的实验表明,Parallel-R1成功地培养了并行思维,与直接在具有挑战性的任务上使用强化学习训练的顺序思维模型相比,准确率提高了8.4%。进一步的分析表明,模型思维行为发生了明显转变:在早期阶段,它使用并行思维作为一种探索策略,而在后期阶段,它使用相同能力进行多角度验证。最重要的是,验证了并行思维作为一种中期训练探索支架的有效性,这种临时的探索阶段在强化学习后解锁了更高的性能上限,在AIME25上实现了比基线高42.9%的改进。模型、数据和代码将在https://github.com/zhengkid/Parallel-R1开源。

🔬 方法详解

问题定义:现有方法在训练LLM进行复杂推理时,主要依赖于在合成数据上进行监督微调(SFT)。这种方法鼓励模型模仿预先设定的推理路径,限制了模型探索多种可能的推理方式,从而难以充分发挥LLM的并行思维能力。尤其是在面对复杂、需要多步骤推理的问题时,这种局限性更加明显。

核心思路:Parallel-R1的核心思路是利用强化学习(RL)来训练LLM的并行思维能力。与SFT不同,RL允许模型在探索过程中获得奖励,从而鼓励模型自主发现和学习更有效的推理策略。此外,为了解决RL训练的冷启动问题,Parallel-R1采用了渐进式课程学习,即先在简单的任务上进行SFT,然后再过渡到更复杂的任务上进行RL。

技术框架:Parallel-R1框架包含两个主要阶段:1) 基于SFT的并行思维能力初始化阶段:使用prompt生成简单任务的轨迹数据,并在此基础上进行SFT,使模型初步具备并行思维能力。2) 基于RL的并行思维能力探索与泛化阶段:在更复杂的任务上,使用RL训练模型,鼓励模型探索不同的推理路径,并根据最终结果获得奖励。框架使用策略梯度方法进行RL训练。

关键创新:Parallel-R1最重要的创新点在于将强化学习引入到LLM的并行思维训练中。与传统的SFT方法相比,RL能够更好地鼓励模型进行探索和泛化,从而提升模型在复杂推理任务上的性能。此外,渐进式课程学习的设计也有效地解决了RL训练的冷启动问题。

关键设计:Parallel-R1的关键设计包括:1) 奖励函数的设计:奖励函数根据最终答案的正确性进行设计,鼓励模型生成正确的答案。2) 状态表示:状态表示包括当前的问题和模型已经生成的推理步骤。3) 动作空间:动作空间包括不同的推理步骤,模型需要选择下一步要执行的推理步骤。4) 课程学习策略:课程学习策略决定了从简单任务到复杂任务的过渡方式。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Parallel-R1在MATH、AMC23和AIME等多个数学基准测试上取得了显著的性能提升。与直接在具有挑战性的任务上使用强化学习训练的顺序思维模型相比,准确率提高了8.4%。在AIME25上,Parallel-R1实现了比基线高42.9%的改进,验证了并行思维作为一种中期训练探索支架的有效性。

🎯 应用场景

Parallel-R1具有广泛的应用前景,可用于提升LLM在数学、科学、工程等领域的推理能力。例如,可以应用于自动定理证明、代码生成、问题求解等任务。通过赋能LLM并行思维能力,可以显著提升其解决复杂问题的效率和准确性,从而推动人工智能在各个领域的应用。

📄 摘要(原文)

Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.