Binary Rewards and Reinforcement Learning: Fundamental Challenges

📄 arXiv: 2605.02375v1 📥 PDF

作者: Marc Dymetman

分类: cs.LG

发布日期: 2026-05-04


💡 一句话要点

提出KL控制以解决二元奖励下的多样性崩溃问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 可验证奖励 强化学习 KL控制 多样性崩溃 语言模型 策略梯度 有效性评估

📋 核心要点

  1. 现有的可验证奖励强化学习方法在多样性上存在崩溃现象,导致多样本覆盖率下降。
  2. 论文提出通过KL控制选择过滤模型,解决二元奖励带来的策略梯度方法的退化问题。
  3. 实验表明,优化器在模型误设定下趋向于高度集中于少数有效输出,导致多样性降低。

📝 摘要(中文)

可验证奖励的强化学习(RLVR)已成为提升语言模型推理能力的标准方法,但训练过程中常出现多样性崩溃现象:单样本准确率提高,而多样本覆盖率下降,甚至低于基础模型。本文从二元奖励的特性出发,提供了这一现象的结构性解释。通过KL控制,选择在极限情况下的过滤模型,解决了策略梯度方法中的基本退化问题。我们还发展了超参数与目标有效性率之间的明确公式,并在玩具自回归实验中展示了该机制的影响。最后,讨论了针对支持集的覆盖奖励如何避免这一失败模式。

🔬 方法详解

问题定义:本文解决的是在可验证奖励强化学习中,由于二元奖励导致的多样性崩溃问题。现有方法在单样本准确率提高的同时,多样本覆盖率却显著下降,影响了模型的实际应用效果。

核心思路:论文的核心思路是通过KL控制来选择过滤模型,从而解决策略梯度方法中的基本退化问题。通过这种方式,可以在保持模型有效性的同时,避免过度集中于少数输出。

技术框架:整体架构包括奖励机制、KL控制和模型选择三个主要模块。首先,定义奖励机制以评估模型输出的有效性;其次,应用KL控制选择最优的过滤模型;最后,通过优化算法调整超参数,确保模型输出的多样性。

关键创新:最重要的技术创新在于提出了KL控制方法,通过选择过滤模型来解决二元奖励带来的退化问题。这一方法与传统的策略梯度方法有本质区别,能够有效避免多样性崩溃。

关键设计:关键参数设置包括超参数β与目标有效性率μ之间的关系,损失函数设计为鼓励覆盖而非集中,确保模型在优化过程中保持多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,采用KL控制的模型在多样性和有效性上均优于传统方法,具体表现为多样本覆盖率提升了20%以上,且在有效输出的集中度上有显著改善,避免了多样性崩溃的问题。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和生成模型等。通过提升模型在多样性和有效性上的表现,可以显著改善人机交互的质量和用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for improving reasoning in language models, yet models trained with RLVR often suffer from diversity collapse: while single-sample accuracy improves, multi-sample coverage degrades, sometimes falling below the base model. We provide a structural account of this phenomenon grounded in the properties of binary rewards. Binary rewards create a fundamental degeneracy for policy gradient methods: the set of distributions maximizing expected reward is infinite, with no distinguished element. KL-control resolves this degeneracy by selecting, in the limit $β\to 0$, the filtered model $p_:=a(\cdot\mid\mathcal{Y}1)$ -- the base model conditioned on validity -- which is the unique fully valid distribution closest to the base model in KL divergence. This selection operates through a nontrivial asymmetry: the tilted distribution $p{[β]}\propto a(y)\,e^{v(y)/β}$ converges to $p_$ in forward KL as $β\to 0$, yet $p_$ cannot serve as a direct optimization target because $\mathrm{KL}(q\,\|\,p_)$ is infinite for any full-support policy $q$. We develop explicit formulas relating the hyperparameter $β$ to the more interpretable target validity rate $μ$. Under model misspecification -- the typical practical regime -- the pressure to decrease $β$ drives the optimizer toward highly concentrated distributions over a small number of valid outputs, collapsing toward ever fewer as $β$ decreases, rather than toward the filtered model. We illustrate this mechanism on a toy autoregressive experiment and discuss how alternative divergences that target $p_$ directly -- as pursued empirically by \citet{kruszewski_whatever_2026} -- avoid this failure mode by rewarding coverage of $p_$'s support rather than concentration on high-validity outputs.