Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards

📄 arXiv: 2603.18444v1 📥 PDF

作者: Haechan Kim, Soohyun Ryu, Gyouk Chu, Doohyuk Jang, Eunho Yang

分类: cs.LG, cs.AI

发布日期: 2026-03-19

备注: 14 pages, 3 figures


💡 一句话要点

提出Discounted Beta--Bernoulli奖励估计,提升可验证奖励强化学习的样本效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 可验证奖励 样本效率 奖励估计 大型语言模型 推理能力 Beta-Bernoulli分布

📋 核心要点

  1. 现有基于群体的RLVR方法依赖少量rollout的点估计,导致奖励估计方差大、方差崩溃,样本效率低。
  2. 将奖励建模为策略诱导分布的样本,提出Discounted Beta--Bernoulli (DBB)奖励估计,利用历史奖励统计信息。
  3. 实验表明,DBB在多个推理基准测试中显著优于现有方法,提升了模型在同分布和异分布上的性能。

📝 摘要(中文)

本文针对具有可验证奖励的强化学习(RLVR)中样本效率低下的问题,从统计估计的角度重新审视RLVR。将奖励建模为策略诱导分布中的样本,并将优势函数计算视为从有限数据中估计奖励分布的问题。在此基础上,提出了Discounted Beta--Bernoulli (DBB)奖励估计方法,利用历史奖励统计信息来处理非平稳分布。该方法虽然有偏,但降低并稳定了方差,理论上避免了方差崩溃,并实现了比标准点估计更低的均方误差。在六个同分布和三个异分布推理基准测试中,DBB始终优于朴素GRPO,在1.7B和8B模型上,同分布的Acc@8平均提升了3.22/2.42个点,异分布的Acc@8平均提升了12.49/6.92个点,且没有增加额外的计算成本或内存使用。

🔬 方法详解

问题定义:现有的基于群体(group-based)的具有可验证奖励的强化学习(RLVR)方法,在利用大型语言模型进行推理能力提升时,面临着严重的样本效率问题。这些方法依赖于少量rollout的点估计来计算奖励,导致奖励估计的方差很高,容易发生方差崩溃,并且无法有效地利用生成的响应。

核心思路:本文的核心思路是将RLVR问题从一个统计估计的角度重新进行建模。具体来说,将奖励视为从一个策略诱导的分布中抽取的样本,并将优势函数(advantage)的计算转化为从有限的数据中估计奖励分布的问题。通过这种方式,可以利用统计估计的理论和方法来提高奖励估计的准确性和效率。

技术框架:本文提出的Discounted Beta--Bernoulli (DBB)奖励估计方法主要包含以下几个阶段: 1. 奖励建模:将奖励建模为从一个非平稳的Beta-Bernoulli分布中抽取的样本。 2. 历史信息利用:利用历史奖励的统计信息来更新Beta-Bernoulli分布的参数。 3. 优势函数计算:使用估计的Beta-Bernoulli分布来计算优势函数,用于指导策略的更新。 4. 策略更新:使用计算得到的优势函数来更新策略,从而提高模型的推理能力。

关键创新:DBB奖励估计的关键创新在于利用了历史奖励的统计信息来估计当前的奖励分布。与传统的点估计方法相比,DBB方法虽然引入了偏差,但显著降低了奖励估计的方差,避免了方差崩溃的问题,并且实现了更低的均方误差。此外,DBB方法还能够处理非平稳的奖励分布,这使得它更适用于实际的RLVR场景。

关键设计:DBB方法的关键设计包括: 1. 折扣因子:引入折扣因子来控制历史奖励信息的影响程度,从而适应非平稳的奖励分布。 2. Beta-Bernoulli先验:使用Beta-Bernoulli分布作为奖励的先验分布,可以有效地利用历史奖励信息。 3. 方差稳定:通过理论分析证明了DBB方法可以避免方差崩溃的问题,从而保证了训练的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在六个同分布和三个异分布的推理基准测试中,使用DBB奖励估计的GRPO方法始终优于朴素的GRPO方法。具体来说,在1.7B和8B模型上,同分布的Acc@8平均提升了3.22/2.42个点,异分布的Acc@8平均提升了12.49/6.92个点。这些结果表明,DBB方法能够有效地提高RLVR的样本效率,并提升模型的推理能力。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种推理任务中的性能,例如数学问题求解、代码生成、常识推理等。通过提高样本效率,降低了训练成本,使得RLVR方法能够更广泛地应用于实际场景,并有望推动通用人工智能的发展。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has emerged as an effective post-training paradigm for improving the reasoning capabilities of large language models. However, existing group-based RLVR methods often suffer from severe sample inefficiency. This inefficiency stems from reliance on point estimation of rewards from a small number of rollouts, leading to high estimation variance, variance collapse, and ineffective utilization of generated responses. In this work, we reformulate RLVR from a statistical estimation perspective by modeling rewards as samples drawn from a policy-induced distribution and casting advantage computation as the problem of estimating the reward distribution from finite data. Building on this view, we propose Discounted Beta--Bernoulli (DBB) reward estimation, which leverages historical reward statistics for the non-stationary distribution. Although biased, the resulting estimator exhibits reduced and stable variance, theoretically avoids estimated variance collapse, and achieves lower mean squared error than standard point estimation. Extensive experiments across six in-distribution and three out-of-distribution reasoning benchmarks demonstrate that GRPO with DBB consistently outperforms naive GRPO, achieving average Acc@8 improvements of 3.22/2.42 points in-distribution and 12.49/6.92 points out-of-distribution on the 1.7B and 8B models, respectively, without additional computational cost or memory usage.