DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
作者: Jingyi Yang, Yuxian Jiang, Xuhao Hu, Shuang Cheng, Biqing Qi, Jing Shao
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
DARE:用于扩散大语言模型对齐与强化学习的开源框架,加速后训练研究。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散大语言模型 后训练 强化学习 模型对齐 开源框架
📋 核心要点
- 现有扩散大语言模型后训练流程分散,缺乏统一框架,阻碍研究迭代和公平比较。
- DARE框架统一了监督微调、参数高效微调、偏好优化和dLLM强化学习,支持多种模型。
- DARE提供广泛算法覆盖、可复现基准评估和实际加速,促进dLLM后训练方法研究。
📝 摘要(中文)
扩散大语言模型(dLLMs)正成为自回归模型之外的一种引人注目的选择,它用迭代去噪和并行生成动态取代了严格的顺序token生成。然而,它们的开源生态系统仍然是分散的,尤其是在后训练流程中,强化学习目标、rollout实现和评估脚本通常作为特定论文的代码库发布。这种碎片化减缓了研究迭代,增加了复现的工程负担,并使得跨算法的公平比较变得困难。我们提出了DARE(dLLMs Alignment and Reinforcement Executor),一个用于后训练和评估dLLMs的开放框架。DARE构建于verl和OpenCompass之上,统一了监督微调、参数高效微调、偏好优化和dLLM特定的强化学习,用于masked和block扩散语言模型。在包括LLaDA、Dream、SDAR和LLaDA2.x在内的代表性模型家族中,DARE提供了广泛的算法覆盖、可复现的基准评估和实际加速。广泛的经验结果表明,DARE可以作为开发、比较和部署当前和新兴dLLMs后训练方法的可重用研究基础。
🔬 方法详解
问题定义:现有扩散大语言模型(dLLMs)的后训练流程,包括强化学习目标、rollout实现和评估脚本,通常以论文特定的代码库形式存在,导致生态系统碎片化。这使得研究人员难以复现结果、比较不同算法的性能,并减缓了该领域的研究进展。现有方法缺乏一个统一的、易于使用的框架来支持各种后训练技术。
核心思路:DARE的核心思路是构建一个统一的开源框架,将各种dLLM后训练技术(如监督微调、参数高效微调、偏好优化和dLLM特定的强化学习)整合到一个共享的执行栈中。通过提供一致的接口和可复现的基准,DARE旨在降低研究门槛,加速算法迭代,并促进公平比较。
技术框架:DARE框架构建于verl和OpenCompass之上。它支持masked和block扩散语言模型,并提供了一套完整的工具,用于执行各种后训练任务。该框架包括以下主要模块:数据处理模块、模型训练模块、评估模块和强化学习模块。研究人员可以使用DARE轻松地配置和运行不同的后训练算法,并使用标准化的评估指标来比较它们的性能。
关键创新:DARE的关键创新在于其统一性和易用性。它首次将多种dLLM后训练技术整合到一个框架中,并提供了一套标准化的工具和接口。这使得研究人员可以更轻松地探索不同的算法组合,并快速评估它们的性能。此外,DARE还提供了可复现的基准,使得不同研究团队可以公平地比较他们的结果。
关键设计:DARE的关键设计包括:1) 基于verl和OpenCompass的模块化架构,易于扩展和定制;2) 对多种dLLM模型家族(如LLaDA、Dream、SDAR和LLaDA2.x)的支持;3) 统一的API,用于配置和运行不同的后训练算法;4) 标准化的评估指标,用于比较不同算法的性能;5) 可复现的基准,用于验证算法的有效性。
🖼️ 关键图片
📊 实验亮点
DARE框架在多个代表性dLLM模型家族(包括LLaDA、Dream、SDAR和LLaDA2.x)上进行了广泛的实验验证,证明了其算法覆盖的广泛性、基准评估的可复现性以及实际加速效果。实验结果表明,DARE能够有效地支持各种后训练方法,并为dLLM的开发和部署提供有力的支持。
🎯 应用场景
DARE框架可广泛应用于扩散大语言模型的后训练和优化,例如提升生成文本的质量、对齐模型与人类偏好、增强模型的安全性和可靠性。该框架能够加速dLLM在文本生成、对话系统、创意写作等领域的应用,并促进相关研究的进展。
📄 摘要(原文)
Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present \textbf{DARE} (\textbf{d}LLMs \textbf{A}lignment and \textbf{R}einforcement \textbf{E}xecutor), an open framework for post-training and evaluating dLLMs. Built on top of verl~\cite{sheng2024hybridflow} and OpenCompass~\cite{2023opencompass}, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.