GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
作者: Xiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic
分类: cs.LG, cs.AI
发布日期: 2026-05-28
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出GDSD:通过引导去噪器自蒸馏进行扩散语言模型的强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 强化学习 自蒸馏 证据下界 训练推理不匹配
📋 核心要点
- 现有基于ELBO的强化学习方法在训练扩散语言模型时,存在训练和推理不匹配的偏差,导致性能下降。
- GDSD通过从优势引导的自教师中直接蒸馏去噪器,避免了使用ELBO作为似然代理,从而绕过了训练-推理不匹配的偏差。
- 在多个基准测试中,GDSD显著优于现有的基于ELBO的方法,实现了高达+19.6%的测试精度提升,并表现出更稳定的训练奖励动态。
📝 摘要(中文)
强化学习(RL)可用于改进扩散大型语言模型(dLLM)的策略(去噪器),但受到策略似然难以处理的限制。一种主流且有效的方法是用证据下界(ELBO)代替标准RL中的似然,该下界从随机掩码序列中估计。尽管与预训练非常一致,但这些方法通过使用ELBO作为似然代理引入了训练-推理不匹配的偏差,这会降低性能。本文提出了引导去噪器自蒸馏(GDSD),以直接从优势引导的自教师中蒸馏dLLM的去噪器,该自教师源自反向KL正则化RL的闭式最优解。GDSD通过无归一化目标将dLLM的去噪器logits与教师的logits匹配,从而将RL简化为无似然自蒸馏,从而绕过TIM偏差。最近基于ELBO的方法是应用不同蒸馏散度的实例,但具有GDSD避免的可诊断病理。在使用LLaDA-8B和Dream-7B进行的规划、数学和编码基准测试中,GDSD始终优于先前的最先进的基于ELBO的方法,并具有更稳定的训练奖励动态,实现了高达+19.6%的测试精度提升。这些结果表明,直接去噪器自蒸馏,而不依赖于ELBO似然代理,可以为dLLM提供更稳定有效的RL过程。
🔬 方法详解
问题定义:现有方法在利用强化学习优化扩散语言模型时,通常使用证据下界(ELBO)来近似策略似然,这在训练和推理阶段引入了不一致性。这种训练-推理不匹配(TIM)会导致性能下降,限制了强化学习在扩散语言模型中的应用。
核心思路:GDSD的核心思想是通过自蒸馏来直接优化扩散语言模型的去噪器,避免使用ELBO作为似然代理。具体来说,它利用一个优势引导的自教师,该教师基于反向KL正则化强化学习的闭式最优解,从而提供更准确的训练信号。
技术框架:GDSD包含以下主要步骤:1) 使用优势函数引导生成自教师的logits;2) 使用无归一化的目标函数,将扩散语言模型的去噪器logits与自教师的logits进行匹配,实现自蒸馏;3) 通过强化学习优化优势函数,从而提升自教师的性能。整个过程无需计算ELBO,避免了TIM偏差。
关键创新:GDSD最重要的创新在于它将强化学习问题转化为一个无似然的自蒸馏问题。通过直接蒸馏去噪器,避免了使用ELBO近似策略似然,从而消除了训练-推理不匹配的偏差。此外,GDSD利用反向KL正则化强化学习的闭式最优解来构建自教师,保证了教师的质量。
关键设计:GDSD的关键设计包括:1) 使用优势函数来引导自教师的生成,从而提供更有效的训练信号;2) 使用无归一化的目标函数进行自蒸馏,避免了归一化带来的计算复杂性和潜在的数值问题;3) 基于反向KL正则化强化学习的闭式最优解来构建自教师,保证了教师的质量和训练的稳定性。
🖼️ 关键图片
📊 实验亮点
GDSD在规划、数学和编码基准测试中,使用LLaDA-8B和Dream-7B模型,始终优于先前的最先进的基于ELBO的方法。实验结果显示,GDSD实现了高达+19.6%的测试精度提升,并且具有更稳定的训练奖励动态,表明其在优化扩散语言模型方面的有效性。
🎯 应用场景
GDSD方法可应用于各种需要优化生成式语言模型的场景,例如文本生成、代码生成、数学问题求解等。通过更稳定和有效的强化学习过程,GDSD可以提升这些任务的性能,并为开发更强大的语言模型提供新的思路。
📄 摘要(原文)
Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to $+19.6\%$. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.