Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models

作者: Minseo Kim, Coleman Hooper, Aditya Tomar, Chenfeng Xu, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-05 (更新: 2025-12-15)

备注: 11 pages, 5 figures

💡 一句话要点

对比扩散模型与自回归语言模型：性能特征分析与优化策略

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 自回归语言模型 性能分析 长文本处理 块状解码 模型优化 推理加速

📋 核心要点

自回归语言模型(ARMs)在长文本处理中面临算术强度低的挑战，限制了其效率。
论文提出对自回归模型(ARMs)和扩散模型(DLMs)进行性能对比分析，并探索DLMs的优化策略。
研究表明DLMs在长文本处理中扩展性不足，并提出块状解码等方法以提升DLMs的性能。

📝 摘要（中文）

大型语言模型(LLMs)在包括文档处理和代码生成在内的广泛自然语言处理(NLP)任务中取得了最先进的性能。自回归语言模型(ARMs)是LLMs的主要范例，它按顺序生成token，并以所有先前的token为条件。虽然这些模型在一系列下游任务中实现了高精度，但由于next-token预测中固有的顺序依赖性，它们表现出较低的算术强度。最近，扩散语言模型(DLMs)作为一种有前途的替代架构出现。DLMs并行生成输出token，从而减轻了顺序解码的限制。然而，DLMs相对于常用ARMs的性能影响尚未完全理解。在这项工作中，我们对ARMs和DLMs的性能特征进行了全面研究，结合理论分析和经验分析，以表征这些方法之间的权衡。我们表明，虽然DLMs可以通过利用token位置之间的并行性来实现比ARMs更高的算术强度，但它们无法有效地扩展到更长的上下文。然后，我们探索DLMs的块状解码，它将算术强度与序列长度分离，并能够更好地扩展到长上下文（类似于ARMs）。我们还研究了批量推理，发现ARMs表现出更高的吞吐量，因为它们更多地受益于批次中序列之间的并行性。最后，我们强调了加速DLM推理的机会，强调减少采样步骤是开源DLMs实现相对于ARMs更低延迟的关键。

🔬 方法详解

问题定义：现有的大型语言模型主要依赖于自回归模型(ARMs)，其核心问题在于next-token预测的顺序依赖性导致算术强度较低，尤其是在处理长文本时，效率成为瓶颈。扩散语言模型(DLMs)虽然具有并行生成token的潜力，但其性能特征，特别是与ARMs相比，尚未得到充分研究。因此，需要深入理解DLMs的优势与劣势，并探索提升其性能的方法。

核心思路：论文的核心思路是通过理论分析和实验评估，全面对比ARMs和DLMs的性能特征，揭示它们在算术强度、扩展性、批量推理等方面的差异。针对DLMs在长文本处理中的扩展性问题，提出块状解码方法，旨在将算术强度与序列长度解耦，从而提升DLMs在长上下文中的性能。

技术框架：该研究的技术框架主要包括以下几个方面：首先，对ARMs和DLMs的算术强度进行理论分析，推导其计算复杂度和并行度的关系。其次，通过经验分析，在不同的数据集和模型配置下，测量ARMs和DLMs的推理速度、内存占用等性能指标。然后，针对DLMs的扩展性问题，提出块状解码方法，并评估其性能提升。最后，研究批量推理对ARMs和DLMs的影响，分析其吞吐量差异。

关键创新：论文的关键创新在于：1) 对ARMs和DLMs的性能特征进行了全面的对比分析，揭示了它们在算术强度、扩展性、批量推理等方面的差异。2) 提出了块状解码方法，有效地提升了DLMs在长文本处理中的扩展性。3) 强调了减少采样步骤对于加速DLM推理的重要性，为开源DLMs的优化提供了指导。

关键设计：块状解码的关键设计在于将长文本序列分割成多个块，DLM在每个块内并行生成token，从而降低了计算复杂度，并提高了并行度。此外，论文还研究了不同的采样策略对DLM性能的影响，例如减少采样步骤，以降低推理延迟。具体的参数设置和网络结构细节可能因具体的DLM实现而异，但核心思想是利用并行计算来加速token生成过程。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

研究表明，DLMs虽然在理论上具有更高的算术强度，但在长文本处理中扩展性不足。通过引入块状解码，DLMs在长上下文中的性能得到了显著提升，使其更具竞争力。此外，研究还发现，减少采样步骤是加速DLM推理的关键，为开源DLMs的优化提供了明确的方向。

🎯 应用场景

该研究成果可应用于多种自然语言处理任务，如文档生成、代码生成、机器翻译等。通过优化扩散语言模型的性能，可以提升这些任务的效率和质量。此外，该研究对于开发更高效的开源语言模型具有重要意义，有助于推动人工智能技术的普及和应用。

📄 摘要（原文）

Large Language Models (LLMs) have achieved state-of-the-art performance on a broad range of Natural Language Processing (NLP) tasks, including document processing and code generation. Autoregressive Language Models (ARMs), which generate tokens sequentially conditioned on all previous tokens, have been the predominant paradigm for LLMs. While these models have achieved high accuracy across a range of downstream tasks, they exhibit low arithmetic intensity due to the inherent sequential dependency in next-token prediction. Recently, Diffusion Language Models (DLMs) have emerged as a promising alternative architecture. DLMs generate output tokens in parallel, mitigating the limitations of sequential decoding. However, the performance implications of DLMs relative to commonly deployed ARMs are not fully understood. In this work, we present a comprehensive study of the performance characteristics of ARMs and DLMs, combining theoretical analysis with empirical profiling to characterize the trade-offs between these approaches. We show that although DLMs can achieve higher arithmetic intensity than ARMs by leveraging parallelism across token positions, they fail to scale effectively with longer contexts. We then explore block-wise decoding for DLMs, which decouples arithmetic intensity from sequence length and enables better scaling to long contexts (similar to ARMs). We also examine batched inference and find that ARMs exhibit superior throughput as they benefit more from parallelism across sequences in the batch. Finally, we highlight opportunities for accelerating DLM inference, emphasizing that reducing the number of sampling steps is key for open-source DLMs to achieve lower latency relative to ARMs.