Asymmetric Prompt Weighting for Reinforcement Learning with Verifiable Rewards

📄 arXiv: 2602.11128v1 📥 PDF

作者: Reinhard Heckel, Mahdi Soltanolkotabi, Christos Thramboulidis

分类: cs.LG

发布日期: 2026-02-11


💡 一句话要点

提出非对称Prompt权重RL方法,加速可验证奖励下的策略学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 可验证奖励 Prompt权重 非对称权重 LLM后训练

📋 核心要点

  1. 现有基于可验证奖励的强化学习方法在处理成功概率适中的prompt时表现良好,但对极易或极难的prompt重视不足。
  2. 论文提出非对称prompt权重策略,对低成功概率的prompt赋予更高权重,旨在提升从零开始的强化学习效率。
  3. 理论分析表明,在低成功率情况下,非对称权重能有效加速策略收敛,实验也验证了其在从头开始的RL中的优势。

📝 摘要(中文)

本文研究了可验证奖励的强化学习,该方法推动了LLM后训练的最新进展,尤其是在推理方面。策略优化算法为给定的prompt生成多个响应,并根据奖励有效地对相应的梯度进行加权。包括GRPO、DAPO和RLOO在内的大多数流行算法都侧重于模糊的prompt,即具有中间成功概率的prompt,同时降低非常容易和非常难的prompt的梯度。本文考虑了非对称prompt权重,该权重为具有低甚至零经验成功概率的prompt分配更高的权重。我们发现,非对称权重特别有利于从头开始的RL(如R1-Zero),其中训练会遍历广泛的准确率范围,而在模型已经以高准确率开始的后SFT RL中则不然。我们还提供了理论,描述了在固定更新预算下,将成功概率从初始水平提高到目标准确率所需时间最短的prompt权重。在信息响应稀缺且响应成本占主导地位的低成功率情况下,这些最佳权重变为非对称的,从而提升低成功概率,从而加速有效时间收敛。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习方法,如GRPO、DAPO和RLOO,主要关注成功概率适中的prompt,而忽略了成功概率极低或极高的prompt。在从头开始的强化学习场景中,模型需要经历一个从低准确率到高准确率的漫长过程,此时对低成功率prompt的有效利用至关重要。

核心思路:论文的核心思路是采用非对称的prompt权重策略,即对成功概率较低的prompt赋予更高的权重。这种策略的目的是让模型更多地关注那些目前表现不佳,但可能包含有价值信息的prompt,从而加速学习过程。特别是在低成功率阶段,这种策略可以更有效地利用有限的计算资源。

技术框架:论文主要研究了在强化学习框架下,如何根据prompt的成功概率动态调整其权重。整体流程包括:1) 为给定的prompt生成多个响应;2) 使用可验证奖励对这些响应进行评估;3) 根据响应的奖励和prompt的成功概率,计算非对称权重;4) 使用这些权重来更新策略。论文重点在于权重的计算方式,而非具体的策略优化算法。

关键创新:论文的关键创新在于提出了非对称prompt权重的概念,并从理论上分析了其在低成功率情况下的优势。与现有方法对所有prompt一视同仁或仅关注中间成功概率的prompt不同,该方法能够根据prompt的实际表现动态调整其重要性,从而更有效地利用数据。

关键设计:论文提出了基于理论分析的最佳权重计算方法,该方法旨在最小化将成功概率从初始水平提高到目标准确率所需的时间。具体来说,在低成功率情况下,最佳权重会显著提升低成功概率的prompt的权重。具体的权重计算公式和参数设置可能需要根据具体的实验环境进行调整。

📊 实验亮点

论文通过实验验证了非对称prompt权重策略在从头开始的强化学习中的有效性。结果表明,与现有方法相比,该策略能够显著加速策略收敛,尤其是在低成功率阶段。具体的性能提升幅度取决于具体的实验设置和任务难度,但总体趋势是正向的。

🎯 应用场景

该研究成果可应用于各种需要从头开始训练LLM的强化学习任务,尤其是在奖励信号稀疏或成本高昂的场景下。例如,可以用于训练LLM进行复杂的推理、代码生成或机器人控制等任务,提高训练效率和最终性能。

📄 摘要(原文)

Reinforcement learning with verifiable rewards has driven recent advances in LLM post-training, in particular for reasoning. Policy optimization algorithms generate a number of responses for a given prompt and then effectively weight the corresponding gradients depending on the rewards. The most popular algorithms including GRPO, DAPO, and RLOO focus on ambiguous prompts, i.e., prompts with intermediate success probability, while downgrading gradients with very easy and very hard prompts. In this paper, we consider asymmetric prompt weightings that assign higher weights to prompts with low, or even zero, empirical success probability. We find that asymmetric weighting particularly benefits from-scratch RL (as in R1-Zero), where training traverses a wide accuracy range, and less so in post-SFT RL where the model already starts at high accuracy. We also provide theory that characterizes prompt weights which minimize the time needed to raise success probability from an initial level to a target accuracy under a fixed update budget. In low-success regimes, where informative responses are rare and response cost dominates, these optimal weights become asymmetric, upweighting low success probabilities and thereby accelerating effective-time convergence.