RL2ML: Finite-Rollout Surrogate Objectives from Reinforcement Learning to Maximum Likelihood

📄 arXiv: 2605.30154v1 📥 PDF

作者: Yifu Zheng

分类: cs.LG

发布日期: 2026-05-28


💡 一句话要点

提出RL2ML,连接强化学习与最大似然,优化语言模型训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 语言模型 最大似然 梯度估计 有限展开

📋 核心要点

  1. 基于正确性的强化学习(RLVR)使用二元反馈训练语言模型,但有限展开组引起的期望优化目标和随机更新几何结构常常混淆。
  2. RL2ML通过构建有限展开代理目标函数族,实现强化学习、最大似然训练及其它目标的连续连接,并保持估计器与目标在固定展开预算下的对齐。
  3. 校准的度量增益分析和方差分解表明,最佳代理目标的选择取决于评估指标、局部敏感性和估计器方差,而非简单地接近最大似然。

📝 摘要(中文)

本文提出RL2ML,一族有限展开代理目标函数,具有闭式、完全无偏的梯度估计器。该族函数在固定展开预算下,连续连接标准强化学习、类最大似然训练以及超越最大似然的目标,同时保持估计器-目标对齐。本文引入组级别更新尺度,描述在观察到经验成功计数后,展开组如何被重新加权,揭示了被群体级别目标符号隐藏的亚临界-超临界更新尺度转变。基于这种区分,校准的度量增益分析和精确的方差分解表明,代理目标的最佳选择既不由接近最大似然决定,也不由群体级别权重单独决定,而是共同取决于评估指标、局部敏感性和估计器方差。因此,代理目标族中剩余的自由度可以被表述为一维优化问题,而不是被视为无约束的超参数。

🔬 方法详解

问题定义:现有基于正确性的强化学习方法(如RLVR)在训练语言模型时,使用二元反馈,但忽略了有限展开组对目标函数和更新梯度的影响,导致优化目标与实际更新方向不一致。现有方法难以区分期望优化目标和有限样本带来的随机性,从而影响训练效果。

核心思路:RL2ML的核心在于构建一族有限展开代理目标函数,这些函数在固定计算资源下,能够平滑地连接强化学习、最大似然训练以及超越最大似然的目标。通过精确的梯度估计和方差分析,找到在特定评估指标下,最优的代理目标函数。核心思想是解耦目标函数和梯度估计,并针对有限样本进行优化。

技术框架:RL2ML的技术框架主要包含以下几个阶段:1) 定义有限展开代理目标函数族,该函数族包含一个可调节的参数,用于控制目标函数与强化学习或最大似然的相似度。2) 推导闭式、无偏的梯度估计器,确保梯度估计的准确性。3) 引入组级别更新尺度,分析展开组的重新加权过程,揭示亚临界-超临界更新尺度转变。4) 进行校准的度量增益分析和方差分解,确定最佳代理目标的选择。5) 将剩余自由度转化为一维优化问题,简化超参数调整。

关键创新:RL2ML最重要的技术创新在于:1) 提出了有限展开代理目标函数族,能够灵活地调整目标函数,以适应不同的评估指标和数据分布。2) 提供了闭式、无偏的梯度估计器,避免了梯度估计的偏差。3) 通过组级别更新尺度分析,揭示了有限展开对训练过程的影响。4) 将超参数优化问题简化为一维优化问题,降低了调参难度。与现有方法的本质区别在于,RL2ML更加关注有限样本带来的影响,并针对性地进行优化。

关键设计:RL2ML的关键设计包括:1) 代理目标函数族的设计,通过一个参数控制目标函数与强化学习或最大似然的相似度。2) 梯度估计器的推导,确保无偏性。3) 组级别更新尺度的定义,用于分析展开组的重新加权过程。4) 度量增益分析和方差分解的具体方法,用于确定最佳代理目标。损失函数的设计取决于具体的代理目标函数,网络结构则取决于具体的语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过校准的度量增益分析和精确的方差分解,证明了最佳代理目标的选择并非简单地接近最大似然,而是取决于评估指标、局部敏感性和估计器方差。这一发现为语言模型的训练提供了新的思路,并为超参数优化提供了理论指导。

🎯 应用场景

RL2ML可应用于各种需要从二元反馈中训练语言模型的场景,例如代码生成、文本摘要、对话生成等。该方法能够提高语言模型的训练效率和生成质量,降低调参难度,具有广泛的应用前景。未来可以进一步探索RL2ML在其他领域的应用,例如图像生成、语音合成等。

📄 摘要(原文)

Correctness-based Reinforcement Learning with Verifiable Rewards (RLVR) trains language models from binary feedback on sampled outputs, but the objective optimized in expectation and the stochastic update geometry induced by finite rollout groups are often conflated. This paper develops RL2ML, a family of finite-rollout surrogate objectives with a closed-form, exactly unbiased gradient estimator. The family continuously connects standard reinforcement learning, maximum-likelihood-like training, and beyond-maximum-likelihood objectives while preserving estimator-objective alignment under a fixed rollout budget. We introduce the group-level update scale to characterize how a rollout group is reweighted after its empirical success count is observed, revealing a subcritical-supercritical update-scale transition that is hidden by population-level objective notation alone. Building on this distinction, calibrated metric-gain analysis and exact variance decomposition show that the best choice of surrogate objective is determined neither by proximity to maximum likelihood nor by the population-level weight alone. Instead, it depends jointly on the evaluation metric, local sensitivity, and estimator variance. The remaining degree of freedom in the surrogate objective family can therefore be formulated as a one-dimensional optimization problem rather than treated as an unconstrained hyperparameter.