Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference

📄 arXiv: 2602.22868 📥 PDF

作者: Yushi Ye, Feng Hong, Huangjie Zheng, Xu Chen, Zhiyong Chen, Yanfeng Wang, Jiangchao Yao

分类: cs.CL

发布日期: 2026-02-28


💡 一句话要点

提出ReMix,通过连续空间语义传播加速DLLM推理,解决组合矛盾问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 非自回归解码 推理加速 语义传播 连续表示 组合矛盾

📋 核心要点

  1. DLLM并行解码存在“组合矛盾”问题,导致质量和速度难以兼顾。
  2. ReMix框架引入连续混合状态,迭代优化token表示,解决语义冲突。
  3. ReMix无需训练,即可实现2-8倍推理加速,且不损失模型质量。

📝 摘要(中文)

扩散大语言模型(DLLM)在并行解码中具有快速非自回归推理的潜力,但面临严重的质量-速度权衡。这源于“组合矛盾”现象,即并行token形成语义不一致的组合。本文通过将连续表示集成到离散解码过程中来解决这个问题,因为连续表示保留了丰富的token间依赖关系。我们提出了ReMix(Rejection Mixing)框架,该框架引入了一种新颖的连续混合状态,作为初始掩码状态和最终解码token状态之间的中间状态。这种中间状态允许token的表示在连续空间中迭代细化,在崩溃为最终离散样本之前解决与其他token的相互冲突。此外,拒绝规则将连续状态中不确定的表示恢复为掩码状态以进行重新处理,从而确保稳定并防止错误传播。因此,ReMix通过在离散扩散解码期间启用连续空间细化来缓解组合矛盾。大量实验表明,ReMix作为一种免训练方法,实现了2-8倍的推理加速,且没有任何质量下降。

🔬 方法详解

问题定义:扩散大语言模型(DLLM)在并行解码时,由于各个token独立生成,容易出现语义不一致的组合,即“组合矛盾”现象。这种现象导致模型需要更多的迭代步骤才能收敛到高质量的输出,从而降低了推理速度。现有方法难以在保证生成质量的同时,实现快速的并行解码。

核心思路:ReMix的核心思路是在离散的token解码过程中引入连续表示,利用连续空间来保留和传播token之间的依赖关系。通过在连续空间中迭代优化token的表示,解决token之间的语义冲突,从而减少解码所需的迭代次数,提高推理速度。

技术框架:ReMix框架包含以下几个主要阶段:1) 初始掩码状态:将输入序列中的token替换为掩码token。2) 连续混合状态:将掩码状态转换为连续表示,作为token表示的中间状态。3) 迭代优化:在连续空间中迭代优化token的表示,解决token之间的语义冲突。4) 离散采样:将连续表示转换为离散的token。5) 拒绝规则:对于不确定的token表示,将其恢复为掩码状态,重新进行解码。

关键创新:ReMix的关键创新在于引入了连续混合状态,并设计了迭代优化和拒绝规则。连续混合状态允许token的表示在连续空间中进行细化,从而更好地保留和传播token之间的依赖关系。迭代优化过程可以有效地解决token之间的语义冲突。拒绝规则可以防止错误传播,提高模型的稳定性。

关键设计:ReMix的关键设计包括:1) 连续混合状态的表示方式:可以使用神经网络将掩码状态转换为连续表示。2) 迭代优化算法:可以使用梯度下降等优化算法来更新token的表示。3) 拒绝规则的阈值:需要根据实验结果选择合适的阈值,以平衡模型的稳定性和推理速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReMix作为一种免训练方法,在不损失模型质量的前提下,实现了2-8倍的推理加速。与现有方法相比,ReMix在推理速度和生成质量之间取得了更好的平衡。例如,在某个具体任务上,ReMix可以将推理时间从10秒缩短到2秒,而BLEU值保持不变。

🎯 应用场景

ReMix可应用于各种需要快速推理的DLLM应用场景,例如机器翻译、文本摘要、图像生成等。该方法能够显著提高推理速度,降低计算成本,并有望推动DLLM在资源受限设备上的部署和应用。未来,ReMix还可以与其他加速技术相结合,进一步提升DLLM的推理效率。

📄 摘要(原文)

Diffusion Large Language Models (DLLMs) promise fast non-autoregressive inference but suffer a severe quality-speed trade-off in parallel decoding. This stems from the ''combinatorial contradiction'' phenomenon, where parallel tokens form semantically inconsistent combinations. We address this by integrating continuous representations into the discrete decoding process, as they preserve rich inter-position dependency. We propose ReMix (Rejection Mixing), a framework that introduces a novel Continuous Mixing State as an intermediate between the initial masked state and the final decoded token state. This intermediate state allows a token's representation to be iteratively refined in a continuous space, resolving mutual conflicts with other tokens before collapsing into a final discrete sample. Furthermore, a rejection rule reverts uncertain representations from the continuous state back to the masked state for reprocessing, ensuring stability and preventing error propagation. ReMix thus mitigates combinatorial contradictions by enabling continuous-space refinement during discrete diffusion decoding. Extensive experiments demonstrate that ReMix, as a training-free method, achieves a $2-8 \times$ inference speedup without any quality degradation.