$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction
作者: Zhenbang Du, Kejing Xia, Xinrui Zhong, Yonggan Fu, Nicolai Oswald, Binfei Ji, Brucek Khailany, Pavlo Molchanov, Yingyan Lin
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-21
💡 一句话要点
提出$R^2$-dLLM以解决扩散大语言模型解码冗余问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散大语言模型 解码冗余 高效推理 监督微调 自然语言处理
📋 核心要点
- 现有的扩散大语言模型在解码过程中存在高延迟的问题,限制了其实际应用。
- 本文提出$R^2$-dLLM,通过引入无训练的解码规则和冗余感知的监督微调,减少解码过程中的冗余。
- 实验结果显示,$R^2$-dLLM在解码步骤上最多减少75%,同时保持了生成质量的竞争力。
📝 摘要(中文)
扩散大语言模型(dLLMs)作为自回归生成的有力替代方案,能够实现并行的标记预测。然而,实际应用中dLLM的解码过程仍然面临高延迟的问题,限制了其部署。本文观察到,这种低效主要源于解码过程中的冗余,包括由置信度聚类和位置模糊引起的空间冗余,以及由于重复重新掩蔽已稳定预测引起的时间冗余。为此,我们提出了$R^2$-dLLM,一个统一的框架,从推理和训练两个角度减少解码冗余。在推理时,我们引入无训练的解码规则,聚合局部置信度和标记预测,并最终确定时间稳定的标记,以避免冗余解码步骤。实验表明,$R^2$-dLLM在不同模型和任务中,解码步骤最多减少75%,同时保持生成质量的竞争力。
🔬 方法详解
问题定义:本文旨在解决扩散大语言模型(dLLMs)在解码过程中存在的高延迟和冗余问题。现有方法在解码时存在空间和时间上的冗余,导致效率低下。
核心思路:我们提出$R^2$-dLLM,通过识别并减少解码过程中的冗余,优化推理和训练过程。具体而言,采用无训练的解码规则来聚合局部置信度和标记预测,避免不必要的重复解码。
技术框架:$R^2$-dLLM的整体架构包括两个主要模块:推理模块和训练模块。在推理阶段,应用无训练的解码规则来减少冗余;在训练阶段,采用冗余感知的监督微调,以对齐模型与高效的解码轨迹。
关键创新:本文的主要创新在于提出了一种系统化的方法来识别和减少解码冗余,显著提高了解码效率。这一方法与现有的解码策略相比,能够有效降低冗余步骤。
关键设计:在设计中,我们引入了局部置信度聚合机制,并优化了损失函数,以减少对手动调节阈值的依赖。此外,模型结构经过调整,以支持冗余感知的训练过程。
📊 实验亮点
实验结果表明,$R^2$-dLLM在解码步骤上最多减少75%,显著优于现有解码策略。同时,在不同模型和任务中,生成质量保持竞争力,验证了解码冗余是dLLMs的主要瓶颈。通过显式减少冗余,本文方法实现了实质性的效率提升。
🎯 应用场景
$R^2$-dLLM的研究成果在自然语言处理、对话系统和文本生成等领域具有广泛的应用潜力。通过提高解码效率,该方法能够支持实时应用和大规模模型的部署,推动智能助手和自动化内容生成的发展。未来,该框架还可能扩展到其他生成模型和任务中,进一步提升其实际价值。
📄 摘要(原文)
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive generation by enabling parallel token prediction. However, practical dLLM decoding still suffers from high inference latency, which limits deployment. In this work, we observe that a substantial part of this inefficiency comes from recurring redundancy in the decoding process, including spatial redundancy caused by confidence clusters and positional ambiguity, and temporal redundancy caused by repeatedly remasking predictions that have already stabilized. Motivated by these patterns, we propose $R^2$-dLLM, a unified framework for reducing decoding redundancy from both inference and training perspectives. At inference time, we introduce training-free decoding rules that aggregate local confidence and token predictions, and finalize temporally stable tokens to avoid redundant decoding steps. We further propose a redundancy-aware supervised fine-tuning pipeline that aligns the model with efficient decoding trajectories and reduces reliance on manually tuned thresholds. Experiments demonstrate that $R^2$-dLLM consistently reduces the number of decoding steps by up to 75% compared to existing decoding strategies, while maintaining competitive generation quality across different models and tasks. These results validate that decoding redundancy is a central bottleneck in dLLMs, and that explicitly reducing it yields substantial practical efficiency gains.