DLLMQuant: Quantizing Diffusion-based Large Language Models

📄 arXiv: 2508.14090v2 📥 PDF

作者: Chen Xu, Dawei Yang

分类: cs.CL, cs.AI

发布日期: 2025-08-14 (更新: 2025-08-26)

备注: 12 pages, 6 figures


💡 一句话要点

DLLMQuant:为基于扩散的大语言模型提出量化方案,提升压缩效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 后训练量化 模型压缩 非自回归生成

📋 核心要点

  1. 现有后训练量化方法直接应用于基于扩散的大语言模型时,会面临严重的精度下降和泛化性能降低。
  2. DLLMQuant通过时间-掩码自适应采样、交互感知激活量化和确定性引导量化,为DLLMs量身定制PTQ框架。
  3. 实验结果表明,DLLMQuant在提高效率的同时,显著提升了基于扩散的大语言模型的量化性能。

📝 摘要(中文)

基于扩散的大语言模型(DLLMs)在非自回归文本生成方面展现了潜力,但其部署受到模型尺寸大和计算成本高的限制。后训练量化(PTQ)是一种广泛用于压缩和加速大型语言模型(LLMs)的方法,但直接应用于DLLMs时,会遭受严重的精度下降和泛化性能降低(例如,AWQ在W4A4下在LLADA上会产生16%的精度下降)。本文探讨了DLLMs的关键机制——动态掩码、迭代生成、双向注意力——如何与量化冲突。我们发现了三个核心问题:1)迭代生成和动态掩码率导致不同解码步骤之间的token分布不同,现有PTQ校准方法无法充分捕捉这些分布;2)量化误差在DLLMs的迭代过程中逐渐累积和放大,导致量化模型随着解码步骤的进行表现更差;3)未掩码的token稳定,而掩码的token保持概率性,使得整体特征分布与现有PTQ方法不兼容。为了解决这些问题,我们提出了DLLMQuant,一个为DLLMs量身定制的PTQ框架,它结合了三种新技术:1)时间-掩码自适应采样(TMAS),一种考虑时间和掩码因素的校准方法,能够捕获跨时间步的分布。2)交互感知激活量化(IA-AQ),它利用双向注意力的交互信号来动态分配量化资源。3)确定性引导量化(CGQ),它将掩码状态和token分数作为关键加权标准集成到误差补偿中,使权重量化更适合DLLMs。实验表明,DLLMQuant在提高效率的同时,实现了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决基于扩散的大语言模型(DLLMs)在进行后训练量化(PTQ)时,精度显著下降的问题。现有PTQ方法在应用于DLLMs时,由于DLLMs独特的动态掩码、迭代生成和双向注意力机制,导致量化后的模型性能不佳。现有方法无法有效处理DLLMs中token分布随时间和掩码变化的不稳定性,以及量化误差在迭代过程中的累积放大效应。

核心思路:论文的核心思路是针对DLLMs的特殊机制,设计专门的PTQ方法。通过考虑时间和掩码的影响,自适应地进行校准采样;利用双向注意力机制的交互信息,动态分配量化资源;并结合掩码状态和token分数,指导误差补偿,从而提高量化模型的精度和效率。

技术框架:DLLMQuant框架包含三个主要模块:1) 时间-掩码自适应采样(TMAS):用于校准量化参数,考虑了时间和掩码对token分布的影响。2) 交互感知激活量化(IA-AQ):利用双向注意力机制的交互信号,动态调整激活值的量化策略。3) 确定性引导量化(CGQ):在权重量化过程中,根据掩码状态和token分数,对误差进行补偿。整体流程是先使用TMAS进行校准,然后使用IA-AQ进行激活量化,最后使用CGQ进行权重量化。

关键创新:论文的关键创新在于针对DLLMs的特性,提出了三种新的量化技术:TMAS、IA-AQ和CGQ。TMAS能够捕获跨时间步的token分布变化,IA-AQ能够根据交互信号动态分配量化资源,CGQ能够根据掩码状态和token分数指导误差补偿。这些技术共同作用,解决了现有PTQ方法在DLLMs上表现不佳的问题。

关键设计:TMAS的关键设计在于同时考虑时间和掩码的影响,通过采样不同时间和掩码状态下的token,构建更具代表性的校准数据集。IA-AQ的关键设计在于利用双向注意力机制的交互信号,动态调整激活值的量化范围和精度。CGQ的关键设计在于将掩码状态和token分数作为权重,指导误差补偿的方向和强度,从而减少量化误差对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DLLMQuant在保持较高精度的前提下,显著提高了DLLMs的量化效率。例如,在LLADA数据集上,使用W4A4量化时,DLLMQuant相比于直接应用AWQ,精度提升了超过16%。此外,DLLMQuant还能够有效减少量化误差在迭代过程中的累积,从而提高量化模型的稳定性和泛化能力。

🎯 应用场景

DLLMQuant的应用场景包括但不限于:在资源受限的设备上部署基于扩散的大语言模型,例如移动设备、嵌入式系统等;加速DLLMs的推理速度,提高文本生成效率;降低DLLMs的存储成本,使其更易于分发和使用。该研究的实际价值在于推动DLLMs在实际应用中的普及,未来可能影响自然语言处理、文本生成、机器翻译等领域。

📄 摘要(原文)

Diffusion-based large language models (DLLMs) have shown promise for non-autoregressive text generation, but their deployment is constrained by large model sizes and heavy computational costs. Post-training quantization (PTQ), a widely used method for compressing and accelerating Large Language Models (LLMs), suffers from severe accuracy degradation and reduced generalization performance when directly applied to DLLMs (e.g., AWQ suffers a 16% accuracy drop on LLADA under W4A4). This paper explores how DLLMs' key mechanisms - dynamic masking, iterative generation, bidirectional attention - clash with quantization. We identify three core issues: 1) Iterative generation and dynamic masking ratios lead to distinct token distributions across decoding steps, which are not adequately captured by existing PTQ calibration methods; 2) Quantization errors are accumulated and amplified progressively during iteration in DLLMs, causing quantized models to perform worse as decoding steps progress; 3) Unmasked tokens stabilize while masked remain probabilistic, making overall feature distribution incompatible with existing PTQ methods. To address these issues, we propose DLLMQuant, a PTQ framework tailored for DLLMs, which incorporates three novel techniques: 1) Temporal-Mask Adaptive Sampling (TMAS), a calibration method that accounts for both time and mask factors, with the capacity to capture distributions across timesteps. 2) Interaction-Aware Activation Quantization (IA-AQ), which utilizes bidirectional attention's interaction signals to dynamically allocate quantization resources. 3) Certainty-Guided Quantization (CGQ), which integrates mask status and token scores as key weighting criteria into error compensation, making weight quantization more suitable for DLLMs. Experiments show that DLLMQuant achieves significant performance gains while enhancing efficiency.