AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

📄 arXiv: 2509.26432v2 📥 PDF

作者: Guanxi Lu, Hao Mark Chen, Yuto Karashima, Zhican Wang, Daichi Fujiki, Hongxiang Fan

分类: cs.LG, cs.AI

发布日期: 2025-09-30 (更新: 2025-10-01)

备注: Preprint. Under review


💡 一句话要点

AdaBlock-dLLM:通过自适应块大小实现语义感知的扩散LLM推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 半自回归解码 自适应块大小 语义感知 推理优化 置信度动态

📋 核心要点

  1. 传统半自回归解码采用固定块大小,导致高置信度token延迟解码和低置信度token过早提交,影响效率和准确性。
  2. AdaBlock-dLLM通过分析去噪过程中的置信度动态,识别波动带区域,从而自适应地调整块大小,与语义步骤对齐。
  3. 实验表明,AdaBlock-dLLM在相同吞吐量下,能够提升高达5.3%的准确率,展示了自适应块大小的优势。

📝 摘要(中文)

基于扩散的大语言模型(dLLMs)因其固有的并行解码能力而备受关注,为自回归LLM提供了一种引人注目的替代方案。在各种解码策略中,分块半自回归(semi-AR)方法因其对KV缓存的天然支持以及良好的精度-速度权衡而被广泛采用。然而,本文指出了传统采用固定块大小的semi-AR解码方法的两个基本局限性:i)后期解码开销,即不必要地延迟了解码当前块外部的高置信度token;ii)过早解码错误,即过早地提交当前块内部的低置信度token,导致错误的token。本文首次对semi-AR解码中固定块大小的假设提出了系统性的研究。通过对去噪过程中置信度动态的统计分析,我们识别了dLLM解码过程中的波动带(VB)区域,该区域编码了局部语义结构,可用于指导自适应块大小调整。利用这些见解,我们提出了一种无需训练、即插即用的调度器AdaBlock-dLLM,它通过在运行时调整块大小,自适应地将块边界与语义步骤对齐。在各种基准测试中进行的大量实验表明,在相同的吞吐量预算下,AdaBlock-dLLM实现了高达5.3%的准确率提升。除了推理时优化之外,我们希望我们这种语义感知的自适应调度方法和基于置信度的分析能够启发未来dLLM的训练策略。

🔬 方法详解

问题定义:论文旨在解决基于扩散的大语言模型(dLLMs)中,使用固定块大小的半自回归(semi-AR)解码方法存在的效率和准确性问题。现有方法的痛点在于,固定块大小无法有效捕捉token的置信度变化,导致高置信度token的解码延迟和低置信度token的过早提交,从而影响整体性能。

核心思路:论文的核心思路是根据解码过程中token的置信度动态,自适应地调整块大小。通过识别置信度波动带(Volatility Band, VB),将块边界与语义步骤对齐,从而避免不必要的延迟和错误。这种自适应调整能够更有效地利用计算资源,提高解码效率和准确性。

技术框架:AdaBlock-dLLM是一个无需训练、即插即用的调度器。其整体流程包括:1) 在解码过程中,动态监测token的置信度变化;2) 基于置信度变化,识别波动带区域;3) 根据波动带区域,自适应地调整块大小,确定新的块边界;4) 使用调整后的块大小进行半自回归解码。该框架的关键在于波动带的识别和块大小的自适应调整策略。

关键创新:最重要的技术创新点在于提出了语义感知的自适应块大小调整方法。与现有固定块大小的方法相比,AdaBlock-dLLM能够根据token的置信度动态,更灵活地调整块大小,从而更好地适应解码过程中的语义变化。这种自适应性是其性能提升的关键。

关键设计:论文的关键设计包括:1) 波动带的定义和识别方法,通过统计分析置信度动态来确定波动带区域;2) 块大小的自适应调整策略,根据波动带区域动态调整块大小,确保块边界与语义步骤对齐;3) 调度器的即插即用设计,无需重新训练模型即可应用,方便部署和使用。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,AdaBlock-dLLM在各种基准测试中均取得了显著的性能提升。在相同的吞吐量预算下,AdaBlock-dLLM实现了高达5.3%的准确率提升。这一结果证明了自适应块大小调整的有效性,并表明AdaBlock-dLLM是一种有竞争力的dLLM推理优化方法。

🎯 应用场景

AdaBlock-dLLM可应用于各种基于扩散的大语言模型推理场景,尤其是在对延迟敏感的应用中,如实时对话系统、机器翻译等。通过提高解码效率和准确性,可以提升用户体验,降低计算成本。该研究为未来dLLM的训练策略提供了新的思路,有望推动dLLM在更广泛领域的应用。

📄 摘要(原文)

Diffusion-based large language models (dLLMs) are gaining attention for their inherent capacity for parallel decoding, offering a compelling alternative to autoregressive LLMs. Among various decoding strategies, blockwise semi-autoregressive (semi-AR) approaches are widely adopted due to their natural support for KV caching and their favorable accuracy-speed trade-off. However, this paper identifies two fundamental limitations in the conventional semi-AR decoding approach that applies a fixed block size: i) late decoding overhead, where the unmasking of high-confidence tokens outside the current block is unnecessarily delayed, and ii) premature decoding error, where low-confidence tokens inside the current block are committed too early, leading to incorrect tokens. This paper presents the first systematic investigation challenging the fixed block size assumption in semi-AR decoding. Through a statistical analysis of confidence dynamics during the denoising process, we identify a volatility band (VB) region during dLLM decoding, which encodes local semantic structure and can be used to guide adaptive block sizing. Leveraging these insights, we introduce AdaBlock-dLLM, a training-free, plug-and-play scheduler that adaptively aligns block boundaries with semantic steps by adjusting block size during runtime. Extensive experiments across diverse benchmarks show that AdaBlock-dLLM achieves up to 5.3% accuracy improvement under the same throughput budget. Beyond inference-time optimization, we hope our semantics-aware adaptive scheduling approach and confidence-based analysis will inspire future training strategies for dLLMs.