Block-R1: Rethinking the Role of Block Size in Multi-domain Reinforcement Learning for Diffusion Large Language Models

📄 arXiv: 2605.11726v1 📥 PDF

作者: Yan Jiang, Ruihong Qiu, Zi Huang

分类: cs.LG

发布日期: 2026-05-12

备注: NeurIPS 2026 Preprint

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

针对扩散大语言模型多领域强化学习,提出Block-R1以解决领域块大小冲突问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散大语言模型 强化学习 多领域学习 块大小冲突 后训练

📋 核心要点

  1. 现有方法在扩散大语言模型(dLLM)的强化学习后训练中,忽略了多领域场景下不同领域间块大小选择的冲突。
  2. 该论文提出了一种新的视角,关注多领域RL中领域块大小冲突问题,并设计了相应的冲突度量方法。
  3. 构建了Block-R1基准数据集,并提出了一种基于样本级别最佳块大小的跨领域后训练方法,实验证明其有效性。

📝 摘要(中文)

最近,强化学习(RL)已被广泛应用于扩散大语言模型(dLLM)的后训练中,以增强基于分块半自回归生成的推理能力。块大小因此成为dLLM中的一个关键因素,因为它决定了并行解码的粒度,并影响RL优化期间的rollout轨迹,例如GRPO。本文没有研究块大小在单个领域推理中的影响,而是从领域冲突的角度研究了多领域场景下dLLM RL后训练中的块大小。主要贡献包括:(1)提出了dLLM多领域RL中领域块大小冲突的公式,这将极大地影响基于rollout的RL方法的后训练效果;(2)构建了一个新的数据集Block-R1-41K,其中每个样本都有一个最佳改进的训练块大小,并引入了一个块大小冲突分数来定量衡量领域冲突;(3)一个新的基准Block-R1,用于dLLM的单领域和跨领域灵活RL后训练;(4)一种简单而强大的跨领域后训练方法,具有样本级别的最佳改进训练块大小。Block-R1涵盖了13个不同的数据集、7种最新的RL算法和各种不同的dLLM骨干网络。

🔬 方法详解

问题定义:论文旨在解决扩散大语言模型(dLLM)在多领域强化学习(RL)后训练中,由于不同领域对块大小的偏好不同而导致的训练冲突问题。现有方法通常针对单个领域优化块大小,忽略了多领域场景下领域间的相互影响,导致模型在某些领域表现不佳。

核心思路:论文的核心思路是识别并量化多领域RL中的领域块大小冲突,并利用样本级别的最佳块大小进行训练。通过为每个样本选择最合适的块大小,可以缓解领域间的冲突,从而提高模型在所有领域的整体性能。

技术框架:论文的技术框架主要包括以下几个部分:1)定义领域块大小冲突;2)构建包含样本级别最佳块大小信息的数据集Block-R1-41K;3)提出基于Block-R1的单领域和跨领域RL后训练基准Block-R1;4)设计一种基于样本级别最佳块大小的跨领域后训练方法。

关键创新:论文的关键创新在于:1)首次提出了多领域dLLM RL后训练中领域块大小冲突的概念,并给出了形式化定义;2)构建了包含样本级别最佳块大小信息的大规模数据集Block-R1-41K,为研究领域块大小冲突提供了数据基础;3)提出了一种简单有效的基于样本级别最佳块大小的跨领域后训练方法。

关键设计:论文的关键设计包括:1)块大小冲突分数的计算方法,用于量化领域间的冲突程度;2)Block-R1-41K数据集的构建过程,确保每个样本都标注了最佳的训练块大小;3)跨领域后训练方法的具体实现,包括如何根据样本选择最佳块大小,以及如何将块大小信息融入到训练过程中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含41K样本的Block-R1-41K数据集,并提出了Block-R1基准。实验结果表明,基于样本级别最佳块大小的跨领域后训练方法在多个数据集上取得了显著的性能提升,证明了该方法的有效性。具体性能数据和对比基线信息可在论文原文中找到。

🎯 应用场景

该研究成果可应用于各种需要多领域知识的扩散大语言模型任务,例如多领域问答、多领域文本生成等。通过缓解领域间的块大小冲突,可以提高模型在各个领域的性能,从而提升用户体验。此外,Block-R1数据集和基准可以促进该领域的研究,推动dLLM在多领域场景下的发展。

📄 摘要(原文)

Recently, reinforcement learning (RL) has been widely applied during post-training for diffusion large language models (dLLMs) to enhance reasoning with block-wise semi-autoregressive generation. Block size has therefore become a vital factor in dLLMs, since it determines the parallel decoding granularity and affects the rollout trajectories during RL optimisation, e.g., GRPO. Instead of investigating the effect of block size during inference on individual domains, this paper studies block size from a domain conflict perspective for dLLM RL post-training in multi-domain scenarios. The main contributions are: (1) a formulation of domain block size conflict in multi-domain RL for dLLMs, which will largely affect the post-training effectiveness for rollout-based RL methods; (2) a novel dataset, Block-R1-41K is constructed with a best-improved training block size for each sample, which also induces a Block Size Conflict Score to quantitatively measure the domain conflict; (3) a new benchmark, Block-R1, for flexible RL post-training for dLLMs in both single and cross domain; and (4) a simple yet powerful cross-domain post-training method with sample-level best-improved training block sizes. Extensive experiments on 13 distinct datasets, 7 latest RL algorithms, and various different dLLM backbones are covered in Block-R1. The benchmark is open-sourced at https://github.com/YanJiangJerry/Block-R1, with the dataset released at https://huggingface.co/datasets/dLLM-R1/Block-R1-41K.