Reinforcement Learning from Denoising Feedback

📄 arXiv: 2605.25638v1 📥 PDF

作者: Qi He, Huan Chen, Ya Guo, Huijia Zhu, Yi R. Fung, Baojian Zhou

分类: cs.CL, cs.LG

发布日期: 2026-05-25

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于去噪反馈的强化学习方法以解决策略损失估计问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 去噪反馈 扩散语言模型 策略损失估计 模型优化 推理能力提升

📋 核心要点

  1. 现有的强化学习方法在扩散语言模型中面临策略损失估计不准确和效率低下的问题。
  2. 本文提出的RLDF方法通过去噪反馈优化策略损失估计,结合加权时间步采样提升效率。
  3. 实验结果显示,RLDF在LLaDA和Dream架构上均显著提升了性能和泛化能力。

📝 摘要(中文)

策略损失估计在扩散语言模型(dLLMs)的强化学习中仍然是一个基本且长期存在的挑战。本文提出了一种新的训练范式——去噪反馈强化学习(RLDF),利用从回滚和训练过程中获得的反馈来促进准确和高效的策略损失估计。RLDF通过优化模型朝向从中间噪声状态到剪切干净状态的转变,并结合加权时间步采样,平衡计算效率与估计有效性。大量实验表明,RLDF在两个代表性dLLM架构LLaDA和Dream上,在多个推理基准测试中实现了一致且显著的性能和泛化能力提升。我们的工作为扩散语言模型中的可扩展强化学习奠定了原则基础。

🔬 方法详解

问题定义:本文旨在解决在扩散语言模型中进行策略损失估计时的准确性和效率问题。现有方法往往无法有效利用从回滚和训练过程中获得的反馈,导致估计不准确。

核心思路:RLDF通过优化模型向剪切干净状态的转变,结合加权时间步采样,来提高策略损失估计的准确性和计算效率。这种设计使得模型能够更好地利用中间状态的信息。

技术框架:RLDF的整体架构包括两个主要阶段:首先是从中间噪声状态到干净状态的优化,其次是通过加权时间步采样来平衡计算效率与估计效果。

关键创新:RLDF的核心创新在于利用去噪反馈来优化策略损失估计,这与传统方法依赖于单一状态的估计方式有本质区别。

关键设计:在RLDF中,采用了加权时间步采样策略,以确保在不同时间步的反馈信息能够有效整合,同时损失函数设计上也考虑了去噪过程的影响。具体的参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RLDF在LLaDA和Dream架构上均实现了显著的性能提升,具体在多个推理基准测试中,性能提升幅度达到10%以上,相较于传统方法具有更好的泛化能力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过提高扩散语言模型的训练效率和性能,RLDF可以在实际应用中实现更高质量的生成和推理能力,推动智能系统的进一步发展。

📄 摘要(原文)

Policy loss estimation remains a fundamental and long-standing challenge in reinforcement learning (RL) for diffusion language models (dLLMs). We introduce Reinforcement Learning from Denoising Feedback (RLDF), a novel training paradigm that leverages feedback obtained from rollout and training processes to facilitate accurate and efficient policy loss estimation. To balance the trade-off between computational efficiency and estimation effectiveness, RLDF optimizes the model toward the clipped clean state $\hat{x}_0$ from intermediate noisy states $x_t$, combined with weighted timestep sampling over $t$. Extensive experiments demonstrate that RLDF achieves consistent and substantial improvements in both performance and generalizability across two representative dLLM architectures, LLaDA and Dream, on multiple reasoning benchmarks. Our work lays a principled foundation for scalable reinforcement learning in diffusion language models. We build Drift, a training framework for dLLMs, available at https://github.com/ant-research/Drift.