Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding

📄 arXiv: 2602.23792v1 📥 PDF

作者: Xiangzhong Luo, Yilin An, Zhicheng Yu, Weichen Liu, Xu Yang

分类: cs.CL

发布日期: 2026-02-27

备注: 11 pages, 7 figures


💡 一句话要点

提出DiCo:通过自适应并行解码加速扩散模型大语言模型的推理速度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 并行解码 推理加速 分而治之 自适应解码 自然语言处理

📋 核心要点

  1. 扩散模型大语言模型(dLLMs)虽然理论上支持并行解码,但实际应用中并行解码会降低生成质量,限制了其推理速度。
  2. DiCo采用分而治之的策略,通过Divide阶段构建局部簇,Conquer阶段并行解码,以及Finalize阶段的精细解码,实现高效并行。
  3. 实验结果表明,DiCo能够在保证生成质量的同时,显著提升dLLMs的推理速度,弥合了理论并行性和实际性能之间的差距。

📝 摘要(中文)

基于扩散的大语言模型(dLLMs)在各种推理任务中表现出良好的性能,成为自回归大语言模型(LLMs)的替代方案。与自回归LLM每步基于所有先前token生成一个token不同,dLLM理论上能够在每个解码步骤并行生成多个token。然而,最近的dLLM在实践中仍然倾向于每步生成一个token,因为直接解码多个被mask的token通常会导致生成质量和稳定性的下降。这揭示了dLLM的理论并行性和实际性能之间存在巨大差距。为了弥合这一差距,我们引入了一种自适应并行解码方法,即DiCo,它采用三阶段分而治之的范式来释放dLLM的固有并行性。在Divide阶段,DiCo首先探索输入mask序列,并将mask的token识别为种子token,然后扩展这些种子token以构建一组局部簇。在Conquer阶段,DiCo在Divide阶段构建的不同局部簇上执行并行解码。分而治之的过程在Divide和Conquer阶段之间重复交替,直到收敛。在Finalize阶段,DiCo使用有效的细粒度复合解码方案解码剩余的少量mask token,以完成生成。大量的实验表明,DiCo可以在保持竞争力的生成质量的同时,实现显著的推理加速。

🔬 方法详解

问题定义:现有扩散模型大语言模型(dLLMs)虽然在理论上支持并行生成多个token,但直接进行并行解码会导致生成质量下降和稳定性问题。因此,如何在保证生成质量的前提下,充分利用dLLMs的并行能力,加速推理过程,是本文要解决的核心问题。现有方法主要采用逐token生成的方式,无法有效利用dLLMs的并行潜力。

核心思路:本文的核心思路是采用“分而治之”的策略,将整个解码过程分解为多个局部并行解码任务,从而在保证生成质量的同时,提高解码效率。具体来说,首先将mask序列划分为多个局部簇,然后在这些局部簇上并行进行解码。通过这种方式,可以避免直接对整个mask序列进行并行解码所带来的质量下降问题。

技术框架:DiCo包含三个主要阶段:Divide、Conquer和Finalize。 1. Divide阶段:该阶段的目标是将mask序列划分为多个局部簇。首先,识别mask序列中的种子token,然后基于这些种子token扩展形成局部簇。 2. Conquer阶段:该阶段在Divide阶段构建的局部簇上并行执行解码。每个局部簇的解码过程是独立的,可以显著提高解码效率。 3. Finalize阶段:该阶段处理剩余的少量mask token,采用细粒度的复合解码方案,以确保最终生成结果的质量。

关键创新:DiCo的关键创新在于其自适应的并行解码策略,它能够根据输入序列的特点,动态地将mask序列划分为多个局部簇,并在这些局部簇上并行执行解码。这种策略有效地平衡了生成质量和解码效率,弥合了dLLMs的理论并行性和实际性能之间的差距。与现有方法相比,DiCo能够充分利用dLLMs的并行能力,实现显著的推理加速。

关键设计:Divide阶段的关键在于种子token的选择和局部簇的扩展策略。Conquer阶段的关键在于如何保证各个局部簇解码结果的一致性和连贯性。Finalize阶段的关键在于如何设计细粒度的复合解码方案,以确保最终生成结果的质量。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiCo能够在保持与现有方法相当的生成质量的前提下,显著提升dLLMs的推理速度。具体的加速效果和性能数据在论文中进行了详细报告(未知)。DiCo在多个基准测试中都取得了优异的成绩,证明了其有效性和通用性。

🎯 应用场景

DiCo的潜在应用领域包括机器翻译、文本摘要、对话生成等各种自然语言处理任务。通过加速dLLMs的推理速度,DiCo可以降低计算成本,提高用户体验,并促进dLLMs在实际应用中的广泛部署。未来,DiCo还可以应用于其他类型的生成模型,例如图像生成模型和音频生成模型。

📄 摘要(原文)

Diffusion-based large language models (dLLMs) have shown promising performance across various reasoning tasks, establishing themselves as an alternative to autoregressive large language models (LLMs). Unlike autoregressive LLMs that generate one token per step based on all previous tokens, dLLMs theoretically enable parallel generation of multiple tokens at each decoding step. However, recent dLLMs still favor one-token-per-step generation in practice, as directly decoding multiple masked tokens often leads to degraded generation quality and stability. This reveals a substantial gap between the theoretical parallelism and practical performance of dLLMs. To bridge this gap, we introduce an adaptive parallel decoding approach, namely DiCo, which features a three-phase divide-and-conquer paradigm to unleash the inherent parallelism of dLLMs. During the Divide phase, DiCo first explores the input masked sequence and identifies masked tokens as seed tokens, which are then expanded to construct a set of local clusters. During the Conquer phase, DiCo performs parallel decoding across different local clusters constructed in the Divide phase. The divide-and-conquer process repeatedly alternates between the Divide and Conquer phases until convergence. During the Finalize phase, DiCo decodes the remaining few masked tokens using an effective fine-grained compound decoding scheme to finalize the generation. Extensive experiments demonstrate that DiCo can achieve significant inference speedups while maintaining competitive generation quality.