CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credits

📄 arXiv: 2510.06133v1 📥 PDF

作者: Kangyu Wang, Zhiyun Jiang, Haibo Feng, Weijia Zhao, Lin Liu, Jianguo Li, Zhenzhong Lan, Weiyao Lin

分类: cs.CL, cs.AI

发布日期: 2025-10-07

备注: 18 pages,8 figures,4 tables


💡 一句话要点

提出CreditDecoding以加速扩散大语言模型的并行解码

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散大语言模型 并行解码 Trace Credit 性能提升 自然语言处理 机器学习

📋 核心要点

  1. 现有的扩散大语言模型在解码过程中由于低置信度导致重复掩码,限制了加速效果。
  2. 本文提出Trace Credit概念,通过历史logits量化token的收敛潜力,进而提出CreditDecoding算法。
  3. 实验结果显示,CreditDecoding在多个基准上实现了显著的加速和性能提升,具有良好的扩展性。

📝 摘要(中文)

扩散大语言模型(dLLMs)通过迭代去噪步骤生成文本,现有方法在每一步仅对高置信度位置进行去噪,但由于初始置信度低,常导致重复掩码,限制了加速效果。通过分析dLLM解码轨迹,发现模型在解码步骤前几步就能确定某个token的最终预测。为此,本文引入Trace Credit概念,量化每个token的收敛潜力,并提出CreditDecoding算法,通过融合当前logits与Trace Credit,加速低置信度token的置信度收敛,显著减少冗余迭代并增强解码鲁棒性。在八个基准测试中,CreditDecoding实现了5.48倍的加速和0.48的性能提升,相较于LLaDA-8B-Instruct,且在LLaDA-MoE-Instruct上实现了4.11倍的加速和0.15的性能提升。该方法对长序列有效且与主流推理优化方法正交,易于集成。

🔬 方法详解

问题定义:本文旨在解决扩散大语言模型在并行解码中由于低置信度导致的冗余迭代问题。现有方法在初始阶段频繁掩码token,影响了解码效率。

核心思路:通过分析解码轨迹,发现模型在解码步骤前几步就能预测token的最终值,利用这一历史信息引入Trace Credit,量化token的收敛潜力,从而加速低置信度token的置信度收敛。

技术框架:CreditDecoding算法不需要额外训练,主要包括Trace Credit的计算和当前logits的融合两个模块。首先,计算每个token的Trace Credit,然后将其与当前logits结合,以减少冗余迭代。

关键创新:Trace Credit的引入是本文的核心创新点,它通过历史信息的积累来优化解码过程,显著提高了模型的解码效率,与传统方法相比,减少了不必要的计算步骤。

关键设计:在算法实现中,Trace Credit的计算方式和logits融合策略是关键设计,确保了在不增加训练负担的情况下,提升了解码的速度和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CreditDecoding在八个基准测试中实现了5.48倍的加速和0.48的性能提升,相较于LLaDA-8B-Instruct,此外在LLaDA-MoE-Instruct上也实现了4.11倍的加速和0.15的性能提升,显示出其显著的性能优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的文本生成、对话系统以及机器翻译等。通过加速解码过程,CreditDecoding能够在实时应用中提供更快的响应时间,提升用户体验,未来可能对大规模语言模型的实际部署产生深远影响。

📄 摘要(原文)

Diffusion large language models (dLLMs) generate text through iterative denoising steps, achieving parallel decoding by denoising only high-confidence positions at each step. However, existing approaches often repetitively remask tokens due to initially low confidence scores, leading to redundant iterations and limiting overall acceleration. Through the analysis of dLLM decoding traces, we observe that the model often determines the final prediction for a token several steps before the decoding step. To leverage this historical information and avoid redundant steps, we introduce the concept of Trace Credit, which quantifies each token's convergence potential by accumulating historical logits. Furthermore, we propose CreditDecoding, a training-free parallel decoding algorithm that accelerates the confidence convergence of correct but underconfident tokens by fusing current logits with Trace Credit. This process significantly reduces redundant iterations and enhances decoding robustness. On eight benchmarks, CreditDecoding achieves a 5.48 times speedup and a 0.48 performance improvement over LLaDA-8B-Instruct, and a 4.11 times speedup with a 0.15 performance improvement over LLaDA-MoE-Instruct. Importantly, CreditDecoding scales effectively to long sequences and is orthogonal to mainstream inference optimizations, making it a readily integrable and versatile solution.