Relative Score Policy Optimization for Diffusion Language Models
作者: Zichao Yu, Shengze Xu, Bingqing Jiang, Wenyi Zhang, Difan Zou
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出相对分数策略优化(RSPO)以解决扩散语言模型在强化学习训练中的不稳定性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 强化学习 策略优化 推理能力 奖励建模 生成式AI
📋 核心要点
- 现有dLLMs缺乏可处理的序列级对数比率,导致RL训练依赖高方差的ELBO近似,极易因奖励噪声导致训练不稳定。
- RSPO通过将奖励优势转化为目标相对对数比率,利用可验证奖励对噪声似然估计进行校准,从而实现更稳定的策略更新。
- 实验证明RSPO在规划任务中取得了显著性能提升,并在数学推理任务中展现出与现有先进方法相当的竞争力。
📝 摘要(中文)
扩散大语言模型(dLLMs)为并行且高效的文本生成提供了有前景的途径,但提升其推理能力需要有效的后训练方法。带可验证奖励的强化学习(RLVR)是实现这一目标的自然选择,但由于缺乏标准策略优化中核心的序列级对数比率(log-ratios),其在dLLMs上的应用受到阻碍。现有方法被迫依赖高方差的基于ELBO的近似,导致高奖励信号放大了不准确的分数估计,从而破坏RL训练的稳定性。为此,本文提出了相对分数策略优化(RSPO),这是一种简单的RLVR方法,利用可验证奖励来校准dLLMs中噪声较大的似然估计。该算法的核心在于观察到:奖励优势不仅可以作为更新方向,还可以作为当前策略与参考策略之间相对对数比率的目标。RSPO通过比较奖励优势与奖励隐含的目标相对对数比率来校准噪声估计,根据当前估计与目标之间的差距而非原始优势进行策略更新。在数学推理和规划基准测试中的实验表明,RSPO在规划任务上表现尤为突出,并在数学推理任务上具有竞争力。
🔬 方法详解
问题定义:扩散语言模型(dLLMs)在进行强化学习微调时,由于缺乏自回归模型中常见的序列级对数比率,导致无法直接应用标准的策略梯度算法。现有方法依赖于基于ELBO的近似,这种方法方差极大,且高奖励信号会放大似然估计的误差,导致训练过程极不稳定。
核心思路:RSPO的核心洞察在于将“奖励优势(Reward Advantage)”重新解释为一种目标约束。它不仅将优势视为梯度更新的方向,还将其视为当前策略与参考策略之间相对对数比率的理想目标值,从而通过对比来校准噪声估计。
技术框架:算法流程包含采样生成、奖励评估、相对对数比率计算以及基于差距的策略更新。它在训练循环中引入了一个校准机制,将奖励信号转化为对策略分布的约束,使得更新过程更加平滑且具有目标导向性。
关键创新:最重要的创新在于引入了“奖励隐含的目标相对对数比率”。与直接使用原始优势不同,RSPO通过计算当前估计与奖励目标之间的差距来更新策略,这种机制有效地过滤了噪声,防止了因奖励波动导致的策略崩溃。
关键设计:RSPO通过对比奖励优势与目标相对对数比率来调整更新步长。该方法不需要复杂的近似,通过简单的数学变换将奖励信号转化为对策略分布的直接监督,从而在保持计算效率的同时显著提升了训练的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,RSPO在规划任务基准测试中表现出显著的性能增益,优于传统的ELBO近似方法。在数学推理任务中,该方法不仅保持了与现有最优基线相当的准确率,且在训练过程的收敛速度和稳定性上表现出更强的鲁棒性,证明了其在处理高噪声奖励信号时的有效性。
🎯 应用场景
该方法主要应用于需要复杂推理与规划能力的扩散大语言模型后训练阶段。在数学解题、逻辑规划、代码生成等对准确性要求极高的任务中,RSPO能够有效提升模型在长序列生成中的逻辑连贯性与正确率,为高效、稳定的生成式AI训练提供技术支撑。
📄 摘要(原文)
Diffusion large language models (dLLMs) offer a promising route to parallel and efficient text generation, but improving their reasoning ability requires effective post-training. Reinforcement learning with verifiable rewards (RLVR) is a natural choice for this purpose, yet its application to dLLMs is hindered by the absence of tractable sequence-level log-ratios, which are central to standard policy optimization. The lack of tractable sequence-level log-ratios forces existing methods to rely on high-variance ELBO-based approximations, where high verifier rewards can amplify inaccurate score estimates and destabilize RL training. To overcome this issue, we propose \textbf{R}elative \textbf{S}core \textbf{P}olicy \textbf{O}ptimization (RSPO), a simple RLVR method that uses verifiable rewards to calibrate noisy likelihood estimates in dLLMs. The core of our algorithm relies on a key observation: a reward advantage can be interpreted not only as an update direction, but also as a target for the relative log-ratio between the current and reference policies. Accordingly, RSPO calibrates this noisy relative log-ratio estimate by comparing its reward advantage with the reward-implied target relative log-ratio, updating the policy according to the gap between the current estimate and the target rather than the raw advantage alone. Experiments on mathematical reasoning and planning benchmarks show that RSPO yields especially strong gains on planning tasks and competitive mathematical-reasoning performance.