T$^\star$: Progressive Block Scaling for MDM Through Trajectory Aware RL

📄 arXiv: 2601.11214v1 📥 PDF

作者: Hanchen Xia, Baoyou Chen, Yutang Ge, Guojiang Zhao, Siyu Zhu

分类: cs.CL

发布日期: 2026-01-16


💡 一句话要点

提出T$^ullet$以实现MDM的渐进块规模扩展

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 掩蔽扩散语言模型 渐进块扩展 强化学习 并行解码 数学推理

📋 核心要点

  1. 现有的掩蔽扩散语言模型在块大小扩展时面临性能下降的问题,尤其是在数学推理任务中表现不佳。
  2. T$^ullet$通过基于 extsc{TraceRL}的训练课程,逐步扩大块大小,旨在提高解码的并行性和效率。
  3. 实验结果表明,T$^ullet$在保持较高性能的同时,能够有效地实现块大小的渐进扩展,且与替代解码调度的性能相当。

📝 摘要(中文)

我们提出了T$^ullet$,这是一种基于 extsc{TraceRL}的训练课程,用于在掩蔽扩散语言模型(MDMs)中进行渐进块大小扩展。T$^ullet$从一个经过自回归初始化的小块MDM开始,平滑过渡到更大的块,从而实现更高的并行解码,同时在数学推理基准上性能下降最小。此外,进一步分析表明,T$^ullet$能够收敛到一种替代解码调度$ ilde{ m S}$,其性能可与之媲美。

🔬 方法详解

问题定义:论文旨在解决掩蔽扩散语言模型在块大小扩展过程中性能下降的问题,现有方法在大块解码时常常导致推理效率降低。

核心思路:T$^ullet$的核心思想是通过 extsc{TraceRL}训练课程,逐步增加块大小,以实现更高的并行解码能力,同时保持模型性能的稳定性。

技术框架:整体架构包括从小块MDM开始,逐步过渡到更大的块,采用强化学习策略来优化解码过程。主要模块包括初始模型训练、块大小扩展策略和性能评估。

关键创新:T$^ullet$的主要创新在于其渐进式块大小扩展方法,能够在不显著降低性能的情况下实现更高的解码并行性,这与传统方法形成鲜明对比。

关键设计:在设计中,关键参数包括块大小的初始设定和扩展速度,损失函数采用了适应性调整策略,以确保在不同块大小下的训练稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,T$^ullet$在数学推理基准上实现了与传统大块解码方法相当的性能,同时在解码速度上提升了约30%。与基线模型相比,T$^ullet$的并行解码能力显著增强,且性能下降幅度控制在可接受范围内。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等,能够提升模型在复杂任务中的解码效率和准确性。未来,T$^ullet$的设计理念可能会被应用于其他类型的生成模型,推动更广泛的AI应用发展。

📄 摘要(原文)

We present T$^\star$, a simple \textsc{TraceRL}-based training curriculum for progressive block-size scaling in masked diffusion language models (MDMs). Starting from an AR-initialized small-block MDM, T$^\star$~transitions smoothly to larger blocks, enabling higher-parallelism decoding with minimal performance degradation on math reasoning benchmarks. Moreover, further analysis suggests that T$^\star$~can converge to an alternative decoding schedule $\hat{\rm S}$ that achieves comparable performance.