From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

📄 arXiv: 2604.14142v1 📥 PDF

作者: Yuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-15

备注: Preprint. Our code is available at https://github.com/Trae1ounG/Pretrain_Space_RLVR


💡 一句话要点

提出PreRL和DSRL,通过预训练空间强化学习提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 预训练 大型语言模型 推理能力 负样本强化

📋 核心要点

  1. 现有RLVR方法受限于预训练模型的输出分布,难以突破推理能力的瓶颈。
  2. 论文提出PreRL,直接在预训练空间优化边缘分布P(y),并发现负样本强化(NSR)的关键作用。
  3. 实验表明,基于PreRL的DSRL方法显著提升了LLM的推理能力,优于现有基线方法。

📝 摘要(中文)

通过可验证奖励的强化学习(RLVR)虽然能优化条件分布P(y|x),从而显著增强大型语言模型(LLM)的推理能力,但其潜力受限于基础模型的现有输出分布。在预训练空间中优化边缘分布P(y)可以解决这个瓶颈,既能编码推理能力,又能保持广泛的探索能力。然而,传统的预训练依赖于静态语料库进行被动学习,导致分布偏移,阻碍了有针对性的推理增强。本文提出了PreRL(预训练空间强化学习),它将奖励驱动的在线更新直接应用于P(y)。理论和实验验证了log P(y)和log P(y|x)之间强大的梯度对齐,证明PreRL是标准RL的可行替代方案。此外,我们发现了一个关键机制:PreRL中的负样本强化(NSR)是推理的有效驱动力。NSR-PreRL迅速修剪不正确的推理空间,同时激发内生的反思行为,分别将转换和反思思考增加了14.89倍和6.54倍。基于这些见解,我们提出双空间RL(DSRL),一种策略轮回策略,用NSR-PreRL初始化模型,以扩展推理范围,然后再过渡到标准RL进行细粒度优化。大量实验表明,DSRL始终优于强大的基线,证明预训练空间修剪有效地引导策略朝着更精确的正确推理子空间发展。

🔬 方法详解

问题定义:现有基于强化学习的LLM推理增强方法,主要优化条件概率P(y|x),即给定输入x,优化模型生成正确答案y的概率。然而,这种方法受限于预训练模型的固有输出分布,难以探索新的推理路径和突破性能上限。现有方法缺乏对预训练空间边缘分布P(y)的有效利用,导致探索能力不足。

核心思路:论文的核心思路是在预训练空间直接优化边缘分布P(y),通过奖励驱动的在线更新,引导模型学习更有效的推理策略。通过优化P(y),模型可以摆脱对特定输入x的依赖,探索更广泛的推理空间,从而提升整体的推理能力。同时,论文发现负样本强化(NSR)在预训练空间优化中起着关键作用,能够有效修剪错误的推理空间。

技术框架:论文提出了PreRL和DSRL两种方法。PreRL直接在预训练空间应用强化学习,通过奖励信号更新模型的参数,优化P(y)。DSRL则是一种两阶段的训练策略:首先使用NSR-PreRL进行预训练,扩展模型的推理范围并修剪错误的推理空间;然后,使用标准的强化学习方法进行微调,进一步优化模型的推理能力。DSRL的核心思想是利用PreRL的探索能力和标准RL的优化能力,实现更有效的推理增强。

关键创新:论文的关键创新在于:1) 提出在预训练空间直接优化边缘分布P(y)的PreRL方法,突破了现有RLVR方法的局限性;2) 发现负样本强化(NSR)在预训练空间优化中的关键作用,能够有效修剪错误的推理空间;3) 提出DSRL,一种结合PreRL和标准RL的两阶段训练策略,充分利用了两种方法的优势。与现有方法相比,PreRL和DSRL能够更有效地提升LLM的推理能力。

关键设计:PreRL的关键设计在于奖励函数的设置和负样本的选择。奖励函数需要能够准确反映推理的正确性,并引导模型探索正确的推理路径。负样本的选择需要具有代表性,能够有效修剪错误的推理空间。DSRL的关键设计在于两个阶段的切换策略,需要在PreRL阶段充分探索推理空间,并在标准RL阶段进行精细的优化。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSRL方法在多个推理任务上都取得了显著的性能提升,优于现有的强化学习基线方法。具体而言,NSR-PreRL能够将转换和反思思考分别增加14.89倍和6.54倍。DSRL证明了预训练空间修剪能够有效地引导策略朝着更精确的正确推理子空间发展,从而提升整体的推理能力。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的自然语言处理任务,例如问答系统、阅读理解、对话系统等。通过提升LLM的推理能力,可以提高这些应用在复杂场景下的性能和可靠性。此外,该研究提出的预训练空间强化学习方法,为其他领域的模型预训练和优化提供了新的思路。

📄 摘要(原文)

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.