Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

📄 arXiv: 2505.22618v3 📥 PDF

作者: Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie

分类: cs.CL

发布日期: 2025-05-28 (更新: 2025-07-03)


💡 一句话要点

Fast-dLLM:通过KV缓存和并行解码加速Diffusion LLM的训练,无需额外训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Diffusion LLM 并行解码 KV缓存 非自回归生成 模型加速

📋 核心要点

  1. Diffusion LLM虽然具备并行解码潜力,但推理速度受限于缺乏KV缓存和并行解码时的质量下降。
  2. 提出块状近似KV缓存,为双向扩散模型定制,实现缓存重用,减少性能损失;并提出置信度感知的并行解码策略。
  3. 实验表明,该方法在多个LLM基准测试中,使吞吐量提升高达27.6倍,精度损失最小。

📝 摘要(中文)

基于扩散的大型语言模型(Diffusion LLM)在非自回归文本生成方面展现了潜力,并具备并行解码能力。然而,由于缺乏Key-Value (KV)缓存以及同时解码多个token时质量下降,开源Diffusion LLM的实际推理速度通常落后于自回归模型。为了弥合这一差距,我们引入了一种新颖的块状近似KV缓存机制,专门为双向扩散模型定制,从而实现缓存重用,且性能下降可忽略不计。此外,我们发现并行解码中生成质量下降的根本原因是条件独立性假设下token依赖关系的破坏。为了解决这个问题,我们提出了一种置信度感知的并行解码策略,该策略有选择地解码超过置信度阈值的token,从而减轻依赖关系违规并保持生成质量。在多个LLM基准测试中,对LLaDA和Dream模型进行的实验结果表明,吞吐量提高了高达 extbf{27.6$ imes$},而精度损失最小,从而缩小了与自回归模型的性能差距,并为Diffusion LLM的实际部署铺平了道路。

🔬 方法详解

问题定义:Diffusion LLM虽然具有并行解码的潜力,但由于缺乏有效的KV缓存机制,并且在并行解码时会因为破坏token之间的依赖关系而导致生成质量下降,因此实际推理速度远低于自回归模型。现有的Diffusion LLM难以充分利用其并行性优势,限制了其在实际应用中的部署。

核心思路:论文的核心思路是通过引入一种近似的KV缓存机制,使得Diffusion LLM能够像自回归模型一样重用历史计算结果,从而加速推理过程。同时,为了解决并行解码带来的质量下降问题,论文提出了一种置信度感知的并行解码策略,有选择地解码高置信度的token,避免破坏token之间的依赖关系。

技术框架:Fast-dLLM主要包含两个核心模块:块状近似KV缓存和置信度感知的并行解码。块状近似KV缓存通过将KV值划分为块,并对块进行近似计算,从而降低了KV缓存的存储和计算开销。置信度感知的并行解码首先计算每个token的置信度,然后只解码置信度高于阈值的token,并将低置信度的token留到后续迭代中解码。整个流程旨在加速推理速度,同时保持生成质量。

关键创新:论文的关键创新在于针对双向扩散模型设计了一种块状近似KV缓存机制,该机制能够在保证性能的前提下显著降低KV缓存的开销。此外,置信度感知的并行解码策略能够有效地缓解并行解码带来的质量下降问题,使得Diffusion LLM能够在并行解码的同时保持较高的生成质量。

关键设计:块状近似KV缓存的关键设计在于如何选择合适的块大小和近似方法,以在性能和存储开销之间取得平衡。置信度感知的并行解码的关键设计在于如何定义和计算token的置信度,以及如何选择合适的置信度阈值。论文可能采用了诸如方差、熵等指标来衡量token的置信度,并可能通过实验来确定最佳的阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fast-dLLM在多个LLM基准测试中,对LLaDA和Dream模型实现了高达27.6倍的吞吐量提升,同时保持了最小的精度损失。这显著缩小了Diffusion LLM与自回归模型在推理速度上的差距,使其更具实用性。

🎯 应用场景

该研究成果可应用于各种需要快速文本生成的场景,例如机器翻译、文本摘要、对话系统等。通过提高Diffusion LLM的推理速度,使其能够更好地服务于实时性要求较高的应用,并有望推动Diffusion LLM在实际场景中的广泛应用。

📄 摘要(原文)

Diffusion-based large language models (Diffusion LLMs) have shown promise for non-autoregressive text generation with parallel decoding capabilities. However, the practical inference speed of open-sourced Diffusion LLMs often lags behind autoregressive models due to the lack of Key-Value (KV) Cache and quality degradation when decoding multiple tokens simultaneously. To bridge this gap, we introduce a novel block-wise approximate KV Cache mechanism tailored for bidirectional diffusion models, enabling cache reuse with negligible performance drop. Additionally, we identify the root cause of generation quality degradation in parallel decoding as the disruption of token dependencies under the conditional independence assumption. To address this, we propose a confidence-aware parallel decoding strategy that selectively decodes tokens exceeding a confidence threshold, mitigating dependency violations and maintaining generation quality. Experimental results on LLaDA and Dream models across multiple LLM benchmarks demonstrate up to \textbf{27.6$\times$ throughput} improvement with minimal accuracy loss, closing the performance gap with autoregressive models and paving the way for practical deployment of Diffusion LLMs.