DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference

作者: Fuliang Liu, Xue Li, Ketai Zhao, Yinxi Gao, Ziyan Zhou, Zhonghui Zhang, Zhibin Wang, Wanchun Dou, Sheng Zhong, Chen Tian

分类: cs.CL

发布日期: 2026-01-27

🔗 代码/项目: GITHUB

💡 一句话要点

DART：受扩散模型启发的推测解码加速LLM推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 大型语言模型 LLM推理加速 扩散模型 并行生成 树剪枝 N-gram 自回归

📋 核心要点

现有推测解码方法如EAGLE3，虽提高了草稿准确性，但自回归推理导致草稿延迟高，成为性能瓶颈。
DART受扩散模型启发，通过并行预测多个未来token的logits，消除了草稿阶段的自回归推理。
DART通过高效的树剪枝算法构建高质量草稿token树，显著降低草稿开销，提升端到端解码速度。

📝 摘要（中文）

推测解码是一种有效的、无损的方法，用于加速大型语言模型（LLM）的推理。然而，现有的广泛采用的基于模型的草稿设计，如EAGLE3，以多步自回归推理为代价来提高准确性，导致高草稿延迟，最终使草稿阶段本身成为性能瓶颈。受到基于扩散的语言模型（dLLM）的启发，我们提出了DART，它利用并行生成来减少草稿延迟。DART基于目标模型的隐藏状态，在单个前向传递中并行预测多个未来掩码位置的logits，从而消除了草稿模型中的自回归展开，同时保持了轻量级设计。基于这些并行logits预测，我们进一步引入了一种高效的树剪枝算法，该算法构建具有N-gram强制语义连续性的高质量草稿token树。DART显著降低了草稿阶段的开销，同时保持了高草稿准确性，从而显著提高了端到端解码速度。实验结果表明，DART在多个数据集上实现了2.03倍-3.44倍的实际加速，平均超过EAGLE3 30%，并提供了一个实用的推测解码框架。

🔬 方法详解

问题定义：现有推测解码方法，特别是基于模型的草稿设计（如EAGLE3），在提高草稿准确性的同时，引入了多步自回归推理，导致草稿生成阶段的延迟较高。这使得草稿阶段本身成为整个解码过程的性能瓶颈，限制了整体加速效果。

核心思路：DART的核心思路是借鉴扩散模型（dLLM）的并行生成能力，在草稿阶段避免使用自回归方式，而是通过一次前向传播并行预测多个未来token的logits。这样可以显著降低草稿阶段的延迟，从而提高整体解码速度。

技术框架：DART的整体框架包括以下几个主要阶段：1) 基于目标模型的隐藏状态，并行预测多个未来掩码位置的logits；2) 利用高效的树剪枝算法，基于并行logits预测构建高质量的草稿token树，该树具有N-gram强制语义连续性；3) 使用目标模型验证草稿token树，并接受或拒绝草稿token。

关键创新：DART最重要的技术创新点在于其并行草稿生成机制，它通过模仿扩散模型的思想，避免了传统推测解码方法中草稿模型的自回归推理过程。这种并行化方法显著降低了草稿阶段的延迟，是DART能够实现更高加速比的关键。

关键设计：DART的关键设计包括：1) 使用目标模型的隐藏状态作为输入，预测多个未来token的logits；2) 设计了一种高效的树剪枝算法，用于构建高质量的草稿token树，该算法考虑了N-gram的语义连续性，以提高草稿的准确性；3) 具体参数设置和损失函数等细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DART在多个数据集上实现了2.03倍-3.44倍的实际加速，平均超过EAGLE3 30%。这些结果表明，DART能够显著降低草稿阶段的开销，同时保持高草稿准确性，从而显著提高端到端解码速度，为LLM推理加速提供了一种有效的解决方案。

🎯 应用场景

DART具有广泛的应用前景，可以应用于各种需要快速LLM推理的场景，例如：实时对话系统、机器翻译、文本摘要、代码生成等。通过提高LLM的推理速度，DART可以显著提升这些应用的响应速度和用户体验，并降低计算成本。未来，DART有望成为一种通用的LLM加速技术。

📄 摘要（原文）

Speculative decoding is an effective and lossless approach for accelerating LLM inference. However, existing widely adopted model-based draft designs, such as EAGLE3, improve accuracy at the cost of multi-step autoregressive inference, resulting in high drafting latency and ultimately rendering the drafting stage itself a performance bottleneck. Inspired by diffusion-based large language models (dLLMs), we propose DART, which leverages parallel generation to reduce drafting latency. DART predicts logits for multiple future masked positions in parallel within a single forward pass based on hidden states of the target model, thereby eliminating autoregressive rollouts in the draft model while preserving a lightweight design. Based on these parallel logit predictions, we further introduce an efficient tree pruning algorithm that constructs high-quality draft token trees with N-gram-enforced semantic continuity. DART substantially reduces draft-stage overhead while preserving high draft accuracy, leading to significantly improved end-to-end decoding speed. Experimental results demonstrate that DART achieves a 2.03x--3.44x wall-clock time speedup across multiple datasets, surpassing EAGLE3 by 30% on average and offering a practical speculative decoding framework. Code is released at https://github.com/fvliang/DART.

DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理