PSD: Pushing the Pareto Frontier of Diffusion LLMs via Parallel Speculative Decoding

📄 arXiv: 2605.15609v1 📥 PDF

作者: Shengyin Sun, Yiming Li, Renxi Liu, Xinqi Li, Hui-Ling Zhen, Weizhe Lin, Chen Chen, Xianzhi Yu, Mingxuan Yuan, Chen Ma

分类: cs.CL

发布日期: 2026-05-15

备注: 16 pages


💡 一句话要点

提出并行推测解码(PSD)框架,提升扩散LLM推理效率与生成质量的帕累托最优

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 并行解码 推测解码 推理加速

📋 核心要点

  1. 扩散LLM推理速度慢,主要瓶颈在于迭代去噪过程,每次迭代成本较高。
  2. PSD框架利用单次前向传播的置信度,自适应地选择多个token进行并行解码,并生成多深度推测草案。
  3. 实验表明,PSD在推理效率和生成质量之间取得了平衡,显著提升了token生成速度。

📝 摘要(中文)

扩散大语言模型(dLLM)通过迭代地对掩码token序列进行去噪来生成文本。尽管dLLM可以在每个步骤中并行预测所有被掩盖的位置,但大量的去噪迭代仍然使得推理成本高昂。这种成本可以通过在每个步骤中取消掩盖多个token来在空间上减少,或者通过将多个去噪步骤合并到一个验证调用中来在时间上减少。我们提出了并行推测解码(PSD),这是一个无需训练的框架,可以沿两个轴共同改进推理。使用来自单个前向传递的置信度分数,PSD通过可配置的自适应取消掩盖策略选择要取消掩盖的位置,并构建无需额外模型调用的多深度推测草案。然后,最终的批量验证传递应用分层接受,保留与更新的预测保持一致的最深草案。在推理和代码生成任务中对三个dLLM进行的实验表明,PSD在推理效率和生成质量之间实现了良好的权衡,在与贪婪解码相当的准确度下,每个前向传递最多可达到5.5倍的token。

🔬 方法详解

问题定义:扩散语言模型(dLLM)虽然具备并行预测能力,但其推理过程依赖于大量的迭代去噪步骤,导致推理速度较慢。现有的加速方法要么在空间上(每次迭代解码更多token),要么在时间上(合并多个迭代步骤)进行优化,但缺乏同时考虑两者的有效方案。

核心思路:PSD的核心在于利用单次模型前向传播获得的置信度信息,指导并行解码过程。通过置信度自适应地选择需要unmask的token位置,并生成多个不同深度的推测草案。最终通过分层验证机制,选择与模型预测一致的最深草案,从而在保证生成质量的前提下,显著提升推理速度。

技术框架:PSD框架主要包含以下几个阶段:1) 置信度估计:通过一次dLLM前向传播,获取每个token位置的置信度得分。2) 自适应Unmasking:基于置信度得分,采用可配置的策略选择多个token位置进行unmask。3) 多深度草案生成:根据unmask的位置,生成多个不同深度的推测草案,每个草案代表不同程度的解码结果。4) 分层验证:对生成的草案进行分层验证,选择与模型预测一致的最深草案作为最终输出。

关键创新:PSD的关键创新在于:1) 并行推测解码:同时在空间和时间维度上加速推理,突破了传统方法的局限性。2) 自适应Unmasking策略:根据模型置信度动态调整unmasking策略,提高了效率和准确性。3) 多深度草案与分层验证:通过生成多个草案并进行分层验证,保证了生成质量。

关键设计:PSD的关键设计包括:1) 置信度度量:可以使用模型输出的概率分布或logits来计算置信度得分。2) Unmasking策略:可以采用不同的策略,如top-k选择、阈值选择等,来选择unmask的位置。3) 分层验证机制:需要设计有效的验证方法,判断草案是否与模型预测一致,例如比较token的概率分布或logits。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PSD在三个不同的dLLM模型上,针对推理和代码生成任务,实现了显著的加速效果。在保证生成质量与贪婪解码相当的情况下,PSD能够达到高达5.5倍的tokens/forward pass的提升。这表明PSD能够在推理效率和生成质量之间取得良好的权衡。

🎯 应用场景

PSD框架可广泛应用于各种基于扩散模型的文本生成任务,例如文本摘要、机器翻译、代码生成等。通过提升推理效率,可以降低dLLM的部署成本,使其更易于在资源受限的环境中使用。该方法还有助于加速AI写作助手、智能客服等应用的响应速度,提升用户体验。

📄 摘要(原文)

Diffusion large language models (dLLMs) generate text by iteratively denoising masked token sequences. Although dLLMs can predict all masked positions in parallel within each step, the large number of denoising iterations still makes inference expensive. This cost can be reduced spatially by unmasking multiple tokens per step, or temporally by collapsing multiple denoising steps into one verification call. We propose Parallel Speculative Decoding (PSD), a training-free framework that jointly improves inference along both axes. Using the confidence scores from a single forward pass, PSD selects positions to unmask via a configurable, adaptive unmasking policy and constructs multi-depth speculative drafts without extra model calls. A final batched verification pass then applies hierarchical acceptance, keeping the deepest draft that remains consistent with the updated predictions. Experiments on three dLLMs across reasoning and code generation tasks show that PSD achieves favorable trade-offs between inference efficiency and generation quality, reaching up to $5.5\times$ tokens per forward pass with accuracy comparable to greedy decoding.