DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference

📄 arXiv: 2601.19278v1 📥 PDF

作者: Fuliang Liu, Xue Li, Ketai Zhao, Yinxi Gao, Ziyan Zhou, Zhonghui Zhang, Zhibin Wang, Wanchun Dou, Sheng Zhong, Chen Tian

分类: cs.CL

发布日期: 2026-01-27

🔗 代码/项目: GITHUB


💡 一句话要点

DART:受扩散模型启发的推测解码加速LLM推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 LLM推理加速 扩散模型 并行生成 树剪枝 N-gram 自回归

📋 核心要点

  1. 现有推测解码方法如EAGLE3,虽提高了草稿准确性,但自回归推理导致草稿延迟高,成为性能瓶颈。
  2. DART受扩散模型启发,通过并行预测多个未来token的logits,消除了草稿阶段的自回归推理。
  3. DART通过高效的树剪枝算法构建高质量草稿token树,显著降低草稿开销,提升端到端解码速度。

📝 摘要(中文)

推测解码是一种有效的、无损的方法,用于加速大型语言模型(LLM)的推理。然而,现有的广泛采用的基于模型的草稿设计,如EAGLE3,以多步自回归推理为代价来提高准确性,导致高草稿延迟,最终使草稿阶段本身成为性能瓶颈。受到基于扩散的语言模型(dLLM)的启发,我们提出了DART,它利用并行生成来减少草稿延迟。DART基于目标模型的隐藏状态,在单个前向传递中并行预测多个未来掩码位置的logits,从而消除了草稿模型中的自回归展开,同时保持了轻量级设计。基于这些并行logits预测,我们进一步引入了一种高效的树剪枝算法,该算法构建具有N-gram强制语义连续性的高质量草稿token树。DART显著降低了草稿阶段的开销,同时保持了高草稿准确性,从而显著提高了端到端解码速度。实验结果表明,DART在多个数据集上实现了2.03倍-3.44倍的实际加速,平均超过EAGLE3 30%,并提供了一个实用的推测解码框架。

🔬 方法详解

问题定义:现有推测解码方法,特别是基于模型的草稿设计(如EAGLE3),在提高草稿准确性的同时,引入了多步自回归推理,导致草稿生成阶段的延迟较高。这使得草稿阶段本身成为整个解码过程的性能瓶颈,限制了整体加速效果。

核心思路:DART的核心思路是借鉴扩散模型(dLLM)的并行生成能力,在草稿阶段避免使用自回归方式,而是通过一次前向传播并行预测多个未来token的logits。这样可以显著降低草稿阶段的延迟,从而提高整体解码速度。

技术框架:DART的整体框架包括以下几个主要阶段:1) 基于目标模型的隐藏状态,并行预测多个未来掩码位置的logits;2) 利用高效的树剪枝算法,基于并行logits预测构建高质量的草稿token树,该树具有N-gram强制语义连续性;3) 使用目标模型验证草稿token树,并接受或拒绝草稿token。

关键创新:DART最重要的技术创新点在于其并行草稿生成机制,它通过模仿扩散模型的思想,避免了传统推测解码方法中草稿模型的自回归推理过程。这种并行化方法显著降低了草稿阶段的延迟,是DART能够实现更高加速比的关键。

关键设计:DART的关键设计包括:1) 使用目标模型的隐藏状态作为输入,预测多个未来token的logits;2) 设计了一种高效的树剪枝算法,用于构建高质量的草稿token树,该算法考虑了N-gram的语义连续性,以提高草稿的准确性;3) 具体参数设置和损失函数等细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DART在多个数据集上实现了2.03倍-3.44倍的实际加速,平均超过EAGLE3 30%。这些结果表明,DART能够显著降低草稿阶段的开销,同时保持高草稿准确性,从而显著提高端到端解码速度,为LLM推理加速提供了一种有效的解决方案。

🎯 应用场景

DART具有广泛的应用前景,可以应用于各种需要快速LLM推理的场景,例如:实时对话系统、机器翻译、文本摘要、代码生成等。通过提高LLM的推理速度,DART可以显著提升这些应用的响应速度和用户体验,并降低计算成本。未来,DART有望成为一种通用的LLM加速技术。

📄 摘要(原文)

Speculative decoding is an effective and lossless approach for accelerating LLM inference. However, existing widely adopted model-based draft designs, such as EAGLE3, improve accuracy at the cost of multi-step autoregressive inference, resulting in high drafting latency and ultimately rendering the drafting stage itself a performance bottleneck. Inspired by diffusion-based large language models (dLLMs), we propose DART, which leverages parallel generation to reduce drafting latency. DART predicts logits for multiple future masked positions in parallel within a single forward pass based on hidden states of the target model, thereby eliminating autoregressive rollouts in the draft model while preserving a lightweight design. Based on these parallel logit predictions, we further introduce an efficient tree pruning algorithm that constructs high-quality draft token trees with N-gram-enforced semantic continuity. DART substantially reduces draft-stage overhead while preserving high draft accuracy, leading to significantly improved end-to-end decoding speed. Experimental results demonstrate that DART achieves a 2.03x--3.44x wall-clock time speedup across multiple datasets, surpassing EAGLE3 by 30% on average and offering a practical speculative decoding framework. Code is released at https://github.com/fvliang/DART.