Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference
作者: Yushi Ye, Feng Hong, Huangjie Zheng, Xu Chen, Zhiyong Chen, Yanfeng Wang, Jiangchao Yao
分类: cs.CL
发布日期: 2026-02-26
💡 一句话要点
提出ReMix,通过连续空间语义传播加速DLLM推理,解决组合矛盾问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 非自回归生成 快速推理 语义传播 组合矛盾
📋 核心要点
- DLLM并行解码受“组合矛盾”影响,导致速度-质量的严重权衡。
- ReMix框架引入连续混合状态,迭代优化token表示,解决语义冲突。
- ReMix无需训练,实验证明可实现2-8倍推理加速,且不损失质量。
📝 摘要(中文)
扩散大语言模型(DLLM)有望实现快速的非自回归推理,但在并行解码中面临严重的速度-质量权衡。这源于“组合矛盾”现象,即并行token形成语义不一致的组合。本文通过将连续表示集成到离散解码过程中来解决这个问题,因为连续表示保留了丰富的token间依赖关系。我们提出了ReMix(Rejection Mixing)框架,该框架引入了一种新颖的连续混合状态,作为初始掩码状态和最终解码token状态之间的中间状态。这种中间状态允许token的表示在连续空间中迭代细化,在崩溃为最终离散样本之前解决与其他token的相互冲突。此外,拒绝规则将连续状态中不确定的表示恢复到掩码状态以进行重新处理,从而确保稳定并防止错误传播。因此,ReMix通过在离散扩散解码期间启用连续空间细化来缓解组合矛盾。大量实验表明,ReMix作为一种免训练方法,实现了2-8倍的推理加速,且没有质量下降。
🔬 方法详解
问题定义:扩散大语言模型(DLLM)在并行解码时,由于各个token独立生成,容易产生语义不一致的组合,即“组合矛盾”现象。这导致需要在速度和生成质量之间进行权衡,现有方法难以兼顾两者。
核心思路:ReMix的核心思路是在离散的token解码过程中引入连续表示,利用连续空间保留的丰富token间依赖关系,对token的表示进行迭代优化,从而缓解组合矛盾。通过在连续空间中进行语义传播和冲突解决,最终得到一致的离散token序列。
技术框架:ReMix框架包含以下几个主要阶段:1) 初始掩码状态:输入文本被mask,生成初始的掩码状态。2) 连续混合状态:引入连续混合状态作为中间层,将掩码状态映射到连续空间。3) 迭代细化:在连续空间中,token的表示通过迭代的方式进行细化,解决与其他token的语义冲突。4) 拒绝规则:对于不确定的表示,通过拒绝规则将其恢复到掩码状态,重新进行处理,防止错误传播。5) 最终解码:将连续状态映射回离散空间,得到最终的token序列。
关键创新:ReMix最重要的创新点在于引入了连续混合状态,并在离散解码过程中实现了连续空间的语义传播。这使得token的表示可以在连续空间中进行迭代优化,从而有效地缓解了组合矛盾。与现有方法不同,ReMix无需额外的训练,可以直接应用于现有的DLLM模型。
关键设计:ReMix的关键设计包括:1) 连续混合状态的表示方式;2) 迭代细化的具体算法,例如使用注意力机制进行语义传播;3) 拒绝规则的阈值设定,用于判断表示是否确定;4) 从连续状态到离散状态的映射方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReMix作为一种免训练方法,在不损失生成质量的前提下,实现了2-8倍的推理加速。与现有的并行解码方法相比,ReMix在速度和质量上都取得了显著的提升。实验涵盖了多种DLLM模型和数据集,验证了ReMix的通用性和有效性。
🎯 应用场景
ReMix可应用于各种需要快速推理的自然语言生成任务,例如机器翻译、文本摘要、对话生成等。通过加速DLLM的推理速度,可以降低计算成本,提高用户体验,并促进DLLM在资源受限设备上的部署。该方法在工业界具有广泛的应用前景,例如在线客服、智能助手等。
📄 摘要(原文)
Diffusion Large Language Models (DLLMs) promise fast non-autoregressive inference but suffer a severe quality-speed trade-off in parallel decoding. This stems from the ''combinatorial contradiction'' phenomenon, where parallel tokens form semantically inconsistent combinations. We address this by integrating continuous representations into the discrete decoding process, as they preserve rich inter-position dependency. We propose ReMix (Rejection Mixing), a framework that introduces a novel Continuous Mixing State as an intermediate between the initial masked state and the final decoded token state. This intermediate state allows a token's representation to be iteratively refined in a continuous space, resolving mutual conflicts with other tokens before collapsing into a final discrete sample. Furthermore, a rejection rule reverts uncertain representations from the continuous state back to the masked state for reprocessing, ensuring stability and preventing error propagation. ReMix thus mitigates combinatorial contradictions by enabling continuous-space refinement during discrete diffusion decoding. Extensive experiments demonstrate that ReMix, as a training-free method, achieves a $2-8 \times$ inference speedup without any quality degradation.