SAID: Accelerating Diffusion-Based Language Models via Scaffold-Aware Iterative Decoding

📄 arXiv: 2606.04974v1 📥 PDF

作者: Na Li, Chengda Wang, Mingju Gao, Hao Tang

分类: cs.CL

发布日期: 2026-06-03

备注: Code: https://github.com/TH-AI-Lab-PKU/SAID

🔗 代码/项目: GITHUB


💡 一句话要点

提出SAID框架以加速扩散语言模型的推理过程

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 非自回归生成 去噪 推理加速 信心层次生成 自然语言处理 模型优化

📋 核心要点

  1. 现有的扩散大型语言模型在推理时需要大量的去噪步骤,导致推理过程耗时较长。
  2. SAID框架通过优先对支架标记进行去噪,建立语义结构后再处理细节标记,从而加速推理过程。
  3. 在LLaDA-8B和LLaDA 1.5的实验中,SAID实现了最高9.1倍的推理加速,同时保持了良好的生成质量。

📝 摘要(中文)

扩散大型语言模型(DLLMs)通过迭代去噪损坏的标记序列实现非自回归生成。尽管其能够并行更新多个位置,但由于高质量生成所需的去噪步骤较多,推理过程依然耗时。本文提出SAID框架,通过重新分配计算资源,首先对支架标记进行去噪以建立粗略语义结构,然后用更少的步骤完成可预测的细节标记。此外,SAID还适应了块级扩散解码,并引入了信心层次生成(CHLG),仅对低置信度标记分配额外步骤。实验结果表明,SAID在多个基准测试上显著加速了DLLM推理,最高加速比达到9.1倍,同时保持了竞争力的性能。

🔬 方法详解

问题定义:本文旨在解决扩散大型语言模型推理过程中的高计算成本问题,现有方法在生成高质量文本时需要进行多次去噪,导致推理速度缓慢。

核心思路:SAID框架的核心思想是通过优先对支架标记进行去噪,建立粗略的语义结构,然后用更少的步骤处理可预测的细节标记,从而提高推理效率。

技术框架:SAID的整体架构包括两个主要阶段:首先是对支架标记进行去噪以建立语义结构,其次是对细节标记进行快速处理。此外,SAID还引入了信心层次生成(CHLG),根据标记的置信度动态分配去噪步骤。

关键创新:SAID的主要创新在于其支架感知的迭代解码机制,通过重新分配计算资源,使得推理过程更加高效,与传统的逐步去噪方法相比,显著减少了计算量。

关键设计:在设计上,SAID采用了块级扩散解码策略,并通过信心层次生成机制,确保低置信度标记获得更多的去噪步骤,从而提升生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,SAID在多个基准测试上实现了最高9.1倍的推理加速,相较于传统方法,显著提高了推理效率,同时保持了与基线模型相当的生成质量。这一成果为扩散大型语言模型的实际应用提供了有力支持。

🎯 应用场景

SAID框架在自然语言处理领域具有广泛的应用潜力,尤其是在需要快速生成高质量文本的场景,如对话系统、代码生成和自动摘要等。其高效的推理能力可以显著提升用户体验,并为实时应用提供支持。未来,SAID的设计理念也可能被扩展到其他生成模型中,推动更广泛的研究与应用。

📄 摘要(原文)

Diffusion large language models (DLLMs) enable non-autoregressive generation by iteratively denoising corrupted token sequences with bidirectional context. Despite their ability to update multiple positions in parallel, inference remains costly due to the many denoising steps required for high-quality generation. We propose SAID, a Scaffold-Aware Iterative Decoding framework that accelerates DLLMs by reallocating computation across tokens. SAID first spends denoising computation on scaffold tokens to establish the coarse semantic structure, and then completes predictable detail tokens with fewer steps. We further adapt SAID to block-wise diffusion decoding and introduce Confidence-Hierarchical Layered Generation (CHLG), which assigns additional steps only to low-confidence tokens. Experiments on LLaDA-8B and LLaDA 1.5 across math, coding, and knowledge benchmarks show that SAID significantly accelerates DLLM inference with a maximum speedup of 9.1x while maintaining competitive performance. Our code is publicly available: https://github.com/TH-AI-Lab-PKU/SAID.