Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models
作者: Shun Zou, Yong Wang, Zehui Chen, Lin Chen, Chongyang Tao, Feng Zhao, Xiangxiang Chu
分类: cs.CL
发布日期: 2026-04-10
备注: Accepted for ACL 2026
💡 一句话要点
提出基于锚点的历史稳定解码AHD,解决扩散大语言模型中半自回归解码的块约束问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散大语言模型 半自回归解码 块约束 动态解码 锚点机制 历史稳定解码 推理加速
📋 核心要点
- 半自回归解码在扩散大语言模型中受块约束,导致跨块稳定token解码延迟,影响效率。
- 提出基于锚点的历史稳定解码(AHD),通过动态锚点实时监控token稳定性,提前解码稳定token。
- 实验表明AHD在语言、视觉语言和音频语言任务中,显著提升性能和推理效率,并能克服现有加速策略的性能下降问题。
📝 摘要(中文)
扩散大语言模型(dLLMs)最近成为自回归大语言模型(ARMs)的一个有前景的替代方案。半自回归(Semi-AR)解码因其卓越的性能而被广泛应用于基础dLLMs和先进的解码策略中。然而,我们的观察表明,Semi-AR解码存在固有的块约束,导致许多跨块稳定token的解码被不必要地延迟。为了解决这个挑战,我们系统地研究了稳定token的识别,并提出了三个关键发现:(1)朴素的前瞻解码是不可靠的,(2)token稳定性与收敛趋势密切相关,(3)历史信息是孤立的。基于这些见解,我们提出了一种基于锚点的历史稳定解码(AHD),这是一种无需训练、即插即用的动态解码策略。具体来说,AHD通过动态锚点实时监控token的稳定性趋势。一旦一个token达到稳定状态,它就会启动早期跨块解码,以提高效率和性能。在语言、视觉语言和音频语言领域的广泛实验表明,AHD同时提高了性能和推理效率。值得注意的是,AHD有效地扭转了现有先进解码加速策略中通常观察到的性能下降。例如,在BBH基准测试中,我们的方法将解码步骤减少了80%,同时将性能提高了3.67%。
🔬 方法详解
问题定义:论文旨在解决扩散大语言模型(dLLMs)中半自回归(Semi-AR)解码的块约束问题。现有的Semi-AR解码方法将文本分成固定大小的块,并按顺序解码每个块。这种方法的痛点在于,即使某些token在当前块中已经稳定,也必须等到整个块解码完成后才能进行后续块的解码,导致不必要的延迟和效率损失。
核心思路:论文的核心思路是动态地识别和解码稳定的token,打破块的边界。通过监控token的稳定性趋势,一旦确定一个token已经稳定,就立即启动对该token的解码,而无需等待整个块完成。这种方法能够更早地利用稳定token的信息,从而提高解码效率和性能。
技术框架:AHD的核心在于动态锚点。算法流程如下:1. 初始化:将文本分成块,并为每个块设置锚点。2. 稳定性监控:在解码过程中,实时监控每个token的稳定性趋势,例如通过观察其概率分布的收敛情况。3. 锚点更新:根据token的稳定性趋势,动态地调整锚点的位置。4. 跨块解码:一旦一个token达到稳定状态(由锚点判断),就立即启动对该token的解码,即使该token位于当前块的边界之外。
关键创新:AHD的关键创新在于其动态锚点机制,能够实时监控token的稳定性趋势,并根据这些趋势动态地调整解码策略。与传统的Semi-AR解码方法相比,AHD能够更早地利用稳定token的信息,从而提高解码效率和性能。此外,AHD是一种无需训练、即插即用的策略,可以方便地应用于各种dLLMs。
关键设计:AHD的关键设计包括:1. 稳定性指标:用于衡量token稳定性的指标,例如概率分布的熵、方差等。2. 锚点更新策略:用于动态调整锚点位置的策略,例如基于滑动平均的更新方法。3. 跨块解码策略:用于确定何时启动跨块解码的策略,例如基于阈值的判断方法。具体参数设置和网络结构取决于具体的dLLM模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AHD在多个基准测试中都取得了显著的性能提升。例如,在BBH基准测试中,AHD将解码步骤减少了80%,同时将性能提高了3.67%。此外,AHD还能够有效地扭转现有先进解码加速策略中通常观察到的性能下降,证明了其优越性和鲁棒性。
🎯 应用场景
AHD可广泛应用于各种基于扩散大语言模型的自然语言处理任务,如文本生成、机器翻译、对话系统等。通过提高解码效率和性能,AHD能够降低计算成本,提升用户体验,并促进dLLMs在资源受限环境中的应用。未来,AHD有望与其他先进的解码策略相结合,进一步提升dLLMs的性能。
📄 摘要(原文)
Diffusion Large Language Models (dLLMs) have recently become a promising alternative to autoregressive large language models (ARMs). Semi-autoregressive (Semi-AR) decoding is widely employed in base dLLMs and advanced decoding strategies due to its superior performance. However, our observations reveal that Semi-AR decoding suffers from inherent block constraints, which cause the decoding of many cross-block stable tokens to be unnecessarily delayed. To address this challenge, we systematically investigate the identification of stable tokens and present three key findings: (1) naive lookahead decoding is unreliable, (2) token stability closely correlates with convergence trend, and (3) historical information is isolated. Building on these insights, we propose Anchor-based History-stable Decoding (AHD), a training-free, plug-and-play dynamic decoding strategy. Specifically, AHD monitors the stability trend of tokens in real time through dynamic anchors. Once a token reaches stability, it initiates early cross-block decoding to enhance efficiency and performance. Extensive experiments across language, vision-language, and audio-language domains demonstrate that AHD simultaneously improves both performance and inference efficiency. Notably, AHD effectively reverses the performance degradation typically observed in existing advanced decoding acceleration strategies. For instance, on the BBH benchmark, our approach reduces decoding steps by 80% while improving performance by 3.67%.