d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

📄 arXiv: 2504.12216v2 📥 PDF

作者: Siyan Zhao, Devaansh Gupta, Qinqing Zheng, Aditya Grover

分类: cs.CL, cs.LG

发布日期: 2025-04-16 (更新: 2025-06-03)

备注: 27 pages, project page at https://dllm-reasoning.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出d1框架,通过强化学习提升扩散大语言模型在推理任务上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 强化学习 推理 监督微调 策略梯度 非自回归生成

📋 核心要点

  1. 现有大语言模型的推理能力主要集中在自回归范式,扩散模型在推理方面的潜力尚未充分挖掘。
  2. 论文提出d1框架,结合监督微调和强化学习,将预训练的掩码扩散大语言模型转化为推理模型。
  3. 实验表明,d1框架在数学和规划基准测试中显著提升了扩散大语言模型的推理性能。

📝 摘要(中文)

最近的大语言模型(LLMs)展示了强大的推理能力,这得益于在线强化学习(RL)。这些能力主要在从左到右的自回归(AR)生成范式中得到展示。相比之下,基于扩散的非自回归范式以粗到精的方式生成文本。尽管最近基于扩散的大语言模型(dLLMs)在语言建模性能上已经与AR模型相媲美,但dLLMs是否也能利用LLM推理的最新进展仍不清楚。为此,我们提出了d1,一个通过监督微调(SFT)和RL相结合,将预训练的掩码dLLMs适配为推理模型的框架。具体来说,我们开发并扩展了技术来提高预训练dLLMs的推理能力:(a)我们利用掩码SFT技术从现有数据集中提炼知识并灌输自我改进行为,以及(b)我们引入了一种新颖的无评论家、基于策略梯度的RL算法,称为diffu-GRPO,这是策略梯度方法首次集成到掩码dLLMs中。通过实证研究,我们研究了不同的后训练方法在多个数学和规划基准上的性能。我们发现d1产生了最佳性能,并显著提高了最先进的dLLM的性能。我们的代码已在https://dllm-reasoning.github.io/上发布。

🔬 方法详解

问题定义:论文旨在解决扩散大语言模型(dLLMs)在推理能力上的不足。现有的推理方法主要集中在自回归模型上,而dLLMs虽然在语言建模方面表现出色,但在复杂推理任务上的性能仍有待提高。现有的强化学习方法也较少应用于扩散模型。

核心思路:论文的核心思路是结合监督微调(SFT)和强化学习(RL),将预训练的掩码dLLMs转化为擅长推理的模型。通过SFT,模型可以从现有数据集中学习推理知识,而RL则可以进一步优化模型的推理策略。

技术框架:d1框架包含两个主要阶段:(1) 掩码监督微调(Masked SFT):使用掩码语言建模目标,在推理数据集上微调预训练的dLLM。这种方法允许模型学习推理过程中缺失的信息,从而提高其推理能力。(2) 强化学习(RL):使用一种新颖的无评论家、基于策略梯度的RL算法(diffu-GRPO)来优化模型的推理策略。diffu-GRPO直接优化模型的策略,而无需依赖额外的评论家网络。

关键创新:论文的关键创新在于:(1) 首次将策略梯度方法应用于掩码dLLMs,提出了一种新的RL算法diffu-GRPO。(2) 结合掩码SFT和RL,有效地提升了dLLMs在推理任务上的性能。与现有方法相比,d1框架更适用于扩散模型的特性,能够更好地利用扩散模型的生成能力。

关键设计:在掩码SFT阶段,论文采用了标准的掩码语言建模目标,并使用现有的推理数据集进行微调。在RL阶段,diffu-GRPO算法使用策略梯度方法直接优化模型的策略。具体来说,模型生成推理步骤,并根据最终结果获得奖励。策略梯度用于更新模型的参数,使其能够生成更有效的推理步骤。论文没有提供具体的参数设置或网络结构的细节,这些可能取决于所使用的dLLM的具体架构。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,d1框架显著提升了扩散大语言模型在数学和规划基准测试中的性能。与最先进的dLLM相比,d1框架取得了显著的性能提升,证明了其有效性。具体性能数据和提升幅度在论文中详细展示,但摘要中未提供具体数值。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、规划任务、代码生成等。通过提升扩散模型的推理能力,可以使其在这些领域发挥更大的作用,例如开发更智能的数学辅导系统、更高效的自动化规划工具等。未来,该方法还可以扩展到其他类型的扩散模型和推理任务。

📄 摘要(原文)

Recent large language models (LLMs) have demonstrated strong reasoning capabilities that benefits from online reinforcement learning (RL). These capabilities have primarily been demonstrated within the left-to-right autoregressive (AR) generation paradigm. In contrast, non-autoregressive paradigms based on diffusion generate text in a coarse-to-fine manner. Although recent diffusion-based large language models (dLLMs) have achieved competitive language modeling performance compared to their AR counterparts, it remains unclear if dLLMs can also leverage recent advances in LLM reasoning. To this end, we propose d1, a framework to adapt pre-trained masked dLLMs into reasoning models via a combination of supervised finetuning (SFT) and RL. Specifically, we develop and extend techniques to improve reasoning in pretrained dLLMs: (a) we utilize a masked SFT technique to distill knowledge and instill self-improvement behavior directly from existing datasets, and (b) we introduce a novel critic-free, policy-gradient based RL algorithm called diffu-GRPO, the first integration of policy gradient methods to masked dLLMs. Through empirical studies, we investigate the performance of different post-training recipes on multiple mathematical and planning benchmarks. We find that d1 yields the best performance and significantly improves performance of a state-of-the-art dLLM. Our code is released at https://dllm-reasoning.github.io/.