Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards

作者: Zhen Wang, Zhifeng Gao, Guolin Ke

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-11-21

💡 一句话要点

提出MR-RLVR，通过掩码和重排序自监督提升RLVR在可验证奖励下的数学推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 自监督学习 数学推理 奖励学习自验证 掩码填充 步骤重排序 语言模型 过程监督

📋 核心要点

现有RLVR方法在数学推理中面临中间推理过程难以验证的问题，导致可扩展性受限。
MR-RLVR通过掩码和重排序中间推理步骤，构建自监督奖励信号，引导模型学习推理过程。
实验表明，MR-RLVR在多个数学数据集上显著提升了性能，验证了其有效性。

📝 摘要（中文）

本文针对大规模语言模型（LLMs）在数学推理中，特别是定理证明方面，奖励学习自验证（RLVR）的可扩展性受限问题，提出了一种掩码和重排序的RLVR（MR-RLVR）方法。该方法受到BERT自监督任务的启发，通过“掩码填充”和“步骤重排序”构建过程级别的自监督奖励，从中间推理过程中提取可学习的信号。训练流程包括两个阶段：首先在采样的数学计算和证明数据上进行自监督训练；然后，在仅结果可验证的数学计算数据集上进行RLVR微调。在Qwen2.5-3B和DeepSeek-R1-Distill-Qwen-1.5B上实施MR-RLVR，并在AIME24、AIME25、AMC23和MATH500上进行评估。在固定的采样和解码预算下，MR-RLVR相对于原始RLVR，Pass@1指标平均提升9.86%，Pass@5指标平均提升5.27%，Pass@8指标平均提升4.00%。结果表明，结合过程感知的自监督信号可以有效提高RLVR在仅结果可验证环境下的可扩展性和性能。

🔬 方法详解

问题定义：现有基于奖励学习自验证（RLVR）的方法在处理数学推理，尤其是定理证明时，面临一个关键问题：中间推理步骤的正确性难以直接验证，而最终答案的验证往往不足以提供足够的学习信号。这限制了RLVR在大规模语言模型上的可扩展性。此外，token级别的监督微调（SFT）容易导致模型死记硬背，无法真正诱导更长的推理链。

核心思路：MR-RLVR的核心思路是借鉴BERT的自监督学习方法，通过构建过程级别的自监督奖励，从中间推理过程中提取可学习的信号。具体来说，它通过“掩码填充”和“步骤重排序”两种方式，人为地制造学习任务，迫使模型理解和学习推理过程中的依赖关系。

技术框架：MR-RLVR的训练流程包含两个主要阶段： 1. 自监督预训练：在采样的数学计算和证明数据上，使用掩码填充和步骤重排序构建的自监督奖励进行预训练。这一阶段旨在让模型学习数学推理的基本模式和依赖关系。 2. RLVR微调：在仅结果可验证的数学计算数据集上，使用标准的RLVR方法进行微调。这一阶段旨在让模型在真实的任务环境中进一步优化其推理能力。

关键创新：MR-RLVR的关键创新在于引入了过程感知的自监督学习机制，弥补了传统RLVR方法在中间推理步骤验证上的不足。与传统的token级别SFT相比，MR-RLVR能够更好地诱导模型学习推理过程，而不是简单地记忆答案。

关键设计： * 掩码填充：随机掩盖中间推理步骤中的一部分token，并要求模型预测被掩盖的token。这迫使模型理解推理步骤之间的依赖关系。 * 步骤重排序：随机打乱中间推理步骤的顺序，并要求模型恢复正确的顺序。这迫使模型理解推理步骤的逻辑关系。 * 奖励函数：自监督预训练阶段的奖励函数基于模型预测的准确性和步骤重排序的正确性。 * 模型选择：在Qwen2.5-3B和DeepSeek-R1-Distill-Qwen-1.5B等模型上进行实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在AIME24、AIME25、AMC23和MATH500等数学数据集上，MR-RLVR相对于原始RLVR，在固定的采样和解码预算下，Pass@1指标平均提升9.86%，Pass@5指标平均提升5.27%，Pass@8指标平均提升4.00%。这些显著的性能提升验证了MR-RLVR方法的有效性。

🎯 应用场景

MR-RLVR方法可应用于各种需要复杂推理的场景，例如数学问题求解、定理证明、代码生成等。通过提升模型在中间推理过程中的学习能力，可以提高模型在这些任务中的准确性和可靠性。该方法还有潜力应用于其他需要可验证奖励的强化学习任务，例如机器人控制和游戏AI。

📄 摘要（原文）

Test-time scaling has been shown to substantially improve large language models' (LLMs) mathematical reasoning. However, for a large portion of mathematical corpora, especially theorem proving, RLVR's scalability is limited: intermediate reasoning is crucial, while final answers are difficult to directly and reliably verify. Meanwhile, token-level SFT often degenerates into rote memorization rather than inducing longer chains of thought. Inspired by BERT's self-supervised tasks, we propose MR-RLVR (Masked-and-Reordered RLVR), which constructs process-level self-supervised rewards via "masked-then-fill" and "step reordering" to extract learnable signals from intermediate reasoning. Our training pipeline comprises two stages: we first perform self-supervised training on sampled mathematical calculation and proof data; we then conduct RLVR fine-tuning on mathematical calculation datasets where only outcomes are verifiable. We implement MR-RLVR on Qwen2.5-3B and DeepSeek-R1-Distill-Qwen-1.5B, and evaluate on AIME24, AIME25, AMC23, and MATH500. Under a fixed sampling and decoding budget, MR-RLVR achieves average relative gains over the original RLVR of +9.86% Pass@1, +5.27% Pass@5, and +4.00% Pass@8. These results indicate that incorporating process-aware self-supervised signals can effectively enhance RLVR's scalability and performance in only outcome-verifiable settings.

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理