LLaDA2.1: Speeding Up Text Diffusion via Token Editing
作者: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang
分类: cs.LG, cs.AI
发布日期: 2026-02-09
备注: 11 pages, 3 figures
💡 一句话要点
LLaDA2.1:通过Token编辑加速文本扩散模型推理,兼顾速度与质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本扩散模型 Token编辑 加速推理 强化学习 代码生成
📋 核心要点
- 现有扩散语言模型在解码速度和生成质量之间存在难以兼顾的矛盾,限制了实际应用。
- LLaDA2.1通过Token-to-Token编辑与Mask-to-Token方案的结合,实现了可配置阈值的联合解码,平衡速度与质量。
- 实验结果表明,LLaDA2.1在多个基准测试中实现了强大的任务性能和极快的解码速度,尤其在代码生成任务上表现突出。
📝 摘要(中文)
LLaDA2.0展示了百亿级块扩散模型的扩展潜力和并行化能力,但解码速度和生成质量之间的平衡仍然难以捉摸。本文提出了LLaDA2.1,旨在超越这种权衡。通过将Token-to-Token (T2T) 编辑无缝集成到传统的Mask-to-Token (M2T) 方案中,引入了一种联合、可配置的阈值解码方案。这种结构创新产生了两种不同的模式:速度模式 (S Mode),大胆降低 M2T 阈值以绕过传统约束,同时依靠 T2T 来优化输出;质量模式 (Q Mode),倾向于保守阈值以确保卓越的基准性能,同时控制效率下降。此外,在扩展的上下文窗口的支持下,实现了首个专为扩散语言模型 (dLLM) 量身定制的大规模强化学习 (RL) 框架,并采用专门的技术来实现稳定的梯度估计。这种对齐不仅提高了推理精度,还提升了指令遵循的保真度,弥合了扩散动态和复杂人类意图之间的差距。最终发布了 LLaDA2.1-Mini (16B) 和 LLaDA2.1-Flash (100B)。在 33 个严格的基准测试中,LLaDA2.1 提供了强大的任务性能和闪电般的解码速度。尽管其体积为 100B,但在编码任务上,它在 HumanEval+ 上达到了惊人的 892 TPS,在 BigCodeBench 上达到了 801 TPS,在 LiveCodeBench 上达到了 663 TPS。
🔬 方法详解
问题定义:论文旨在解决扩散语言模型在推理速度和生成质量之间的trade-off问题。现有的扩散模型通常需要多次迭代才能生成高质量的文本,导致推理速度较慢,难以满足实时性要求。
核心思路:论文的核心思路是将Token-to-Token (T2T) 编辑集成到传统的Mask-to-Token (M2T) 方案中,通过T2T编辑来修正M2T生成的token,从而在保证生成质量的同时,降低M2T的迭代次数,提高推理速度。同时,引入可配置的阈值解码方案,允许用户根据需求选择速度模式或质量模式。
技术框架:LLaDA2.1的技术框架主要包括以下几个部分:1) Mask-to-Token (M2T) 模块:负责生成初始的token序列;2) Token-to-Token (T2T) 编辑模块:负责对M2T生成的token序列进行修正和优化;3) 联合阈值解码模块:根据用户配置的阈值,动态调整M2T和T2T的迭代次数;4) 强化学习模块:用于优化模型的推理精度和指令遵循能力。
关键创新:论文最重要的技术创新点在于将T2T编辑与M2T方案相结合,并引入可配置的阈值解码方案。这种方法能够在保证生成质量的前提下,显著提高推理速度。此外,论文还首次将大规模强化学习框架应用于扩散语言模型,进一步提升了模型的性能。与现有方法的本质区别在于,LLaDA2.1不再依赖于单一的M2T迭代,而是通过T2T编辑来加速收敛,从而实现更快的推理速度。
关键设计:论文的关键设计包括:1) T2T编辑模块的具体实现方式,例如采用何种网络结构、损失函数等;2) 联合阈值解码模块的阈值设置策略,如何根据不同的任务和用户需求动态调整阈值;3) 强化学习模块的奖励函数设计,如何有效地引导模型学习到更好的推理策略;4) 上下文窗口大小的设置,如何平衡上下文信息和计算复杂度。
📊 实验亮点
LLaDA2.1在33个基准测试中表现出色,尤其在代码生成任务上取得了显著的性能提升。在HumanEval+上达到了892 TPS,在BigCodeBench上达到了801 TPS,在LiveCodeBench上达到了663 TPS。这些结果表明,LLaDA2.1在保证生成质量的同时,显著提高了推理速度,为扩散模型的实际应用奠定了基础。
🎯 应用场景
LLaDA2.1具有广泛的应用前景,例如:实时对话生成、快速文本摘要、高效代码生成等。其高速推理能力使其能够应用于对延迟敏感的场景,例如在线客服、智能助手等。此外,LLaDA2.1还可以用于生成高质量的创意文本,例如广告文案、小说创作等。未来,该研究有望推动扩散模型在更多实际应用场景中的落地。
📄 摘要(原文)
While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.