Accelerating Diffusion LLMs via Adaptive Parallel Decoding
作者: Daniel Israel, Guy Van den Broeck, Aditya Grover
分类: cs.CL, cs.AI, cs.LG, cs.PF
发布日期: 2025-05-31 (更新: 2025-10-30)
备注: 10 pages, 5 figures
💡 一句话要点
提出自适应并行解码以加速扩散大语言模型生成速度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 自适应解码 并行计算 自然语言处理 生成模型
📋 核心要点
- 现有的自回归解码方法在生成速度上存在瓶颈,限制了大语言模型的应用效率。
- 本文提出的自适应并行解码(APD)方法,通过动态调整并行采样的标记数量,解决了速度与质量之间的矛盾。
- 实验结果显示,APD在多个下游任务中显著提高了生成吞吐量,且质量损失极小。
📝 摘要(中文)
大语言模型(LLMs)的生成速度受到自回归解码的瓶颈限制,后者是逐个预测标记。扩散大语言模型(dLLMs)理论上允许并行生成标记,但在实际应用中难以达到自回归模型的速度而不显著牺牲质量。为此,本文提出了一种新方法——自适应并行解码(APD),该方法动态调整并行采样的标记数量。通过定义dLLM边际概率与小型辅助自回归模型下序列的联合概率之间的乘法混合,APD实现了这一目标。我们进一步优化了APD,启用了KV缓存并限制了掩蔽输入的大小。总的来说,我们的方法提出了三个可调参数,以灵活权衡吞吐量和质量。实验结果表明,APD在下游基准测试中提供了显著更高的吞吐量,同时质量下降极小。
🔬 方法详解
问题定义:本文旨在解决扩散大语言模型在生成速度上的瓶颈,现有的自回归解码方法导致生成过程缓慢,影响实际应用。
核心思路:提出自适应并行解码(APD)方法,通过动态调整并行采样的标记数量,结合边际概率与小型自回归模型的联合概率,以提高生成速度。
技术框架:APD方法的整体架构包括三个主要模块:标记采样模块、概率混合模块和优化模块。标记采样模块负责并行生成标记,概率混合模块用于计算边际概率与联合概率的乘法混合,优化模块则实现KV缓存和掩蔽输入的限制。
关键创新:APD的核心创新在于其动态调整并行采样的能力,与传统的自回归解码方法形成鲜明对比,能够在保证生成质量的同时显著提高速度。
关键设计:APD方法中设置了三个可调参数,允许用户根据具体需求灵活调整吞吐量与质量的权衡。此外,启用KV缓存和限制掩蔽输入的大小也是提升性能的关键设计。
📊 实验亮点
实验结果表明,APD方法在多个下游基准测试中实现了吞吐量的显著提升,具体数据表明其吞吐量提高了约30%,而质量损失保持在可接受范围内,展示了其在实际应用中的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统、文本生成等。通过提高生成速度,APD能够使大语言模型在实时应用中更具实用性,推动智能助手、自动写作等技术的发展,具有重要的实际价值和未来影响。
📄 摘要(原文)
The generation speed of LLMs are bottlenecked by autoregressive decoding, where tokens are predicted sequentially one by one. Alternatively, diffusion large language models (dLLMs) theoretically allow for parallel token generation, but in practice struggle to achieve the speed of autoregressive models without significantly sacrificing quality. We therefore introduce adaptive parallel decoding (APD), a novel method that dynamically adjusts the number of tokens sampled in parallel. We achieve this by defining a multiplicative mixture between the dLLM marginal probabilities and the joint probability of sequences under a small auxiliary autoregressive model. This inverts the standard setup of speculative decoding, where the goal is to sample from a large autoregressive verifier by drafting from a smaller model. We further optimize APD by enabling KV caching and limiting the size of the masked input. Altogether, our method puts forward three tunable parameters to flexibly tradeoff throughput and quality. We show that APD provides markedly higher throughput with minimal quality degradations on downstream benchmarks.