Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models

📄 arXiv: 2510.03274v1 📥 PDF

作者: Tianao Zhang, Zhiteng Li, Xianglong Yan, Haotong Qin, Yong Guo, Yulun Zhang

分类: cs.LG, cs.AI

发布日期: 2025-09-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出Quant-dLLM以解决扩散大语言模型的低比特量化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散大语言模型 后训练量化 低比特量化 掩码校准 数据感知量化 自适应精度分配 优化算法

📋 核心要点

  1. 现有的后训练量化方法在将2比特直接应用于扩散大语言模型时,导致性能不佳,无法满足实际需求。
  2. 本文提出了Quant-dLLM框架,采用掩码校准仿真和数据感知任意顺序量化器,优化了低比特量化过程。
  3. 在严格的2比特预算下,Quant-dLLM在dLLMs上实现了比现有最先进AR转移PTQ方法更高的准确率。

📝 摘要(中文)

扩散大语言模型(dLLMs)因其双向上下文和灵活的掩码去噪生成而成为自回归(AR)大语言模型的有力替代。然而,dLLMs的模型规模不断增长,迫切需要权重压缩以便于部署。尽管后训练量化(PTQ)对AR LLMs有效,但直接应用于dLLMs的2比特量化效果不佳。为此,本文提出了Quant-dLLM,一个专为dLLMs设计的超低比特PTQ框架。通过引入掩码校准仿真(MCS),我们使得校准与时间步依赖的掩码相一致,从而获得更可靠的校准结果。此外,我们提出了一种数据感知任意顺序量化器(DAQ),通过优化算法学习超低比特权重表示。在严格的2比特预算下,Quant-dLLM在dLLMs上始终优于现有的AR转移PTQ方法。

🔬 方法详解

问题定义:本文旨在解决扩散大语言模型在后训练量化中面临的性能下降问题,现有方法在2比特量化时无法有效适应dLLMs的特性。

核心思路:提出Quant-dLLM框架,通过掩码校准仿真(MCS)和数据感知任意顺序量化器(DAQ),使得量化过程更符合dLLMs的特性,从而提高量化后的模型性能。

技术框架:Quant-dLLM的整体架构包括三个主要模块:掩码校准仿真模块、数据感知任意顺序量化模块和自适应块混合精度分配模块(ABMP),通过这些模块协同工作,实现超低比特量化。

关键创新:最重要的创新在于引入了掩码校准仿真(MCS),使得校准过程能够适应时间步依赖的掩码特性,此外,DAQ通过优化算法学习权重表示,显著提升了量化精度。

关键设计:在设计中,ABMP根据通道组的敏感性自适应分配比特宽度,确保在2比特预算下的最佳性能,同时在损失函数和网络结构上进行了精细调整,以适应dLLMs的特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在严格的2比特预算下,Quant-dLLM在dLLMs上实现了比现有最先进AR转移PTQ方法高出显著的准确率,具体性能数据表明,Quant-dLLM在多个基准测试中均优于传统方法,展示了其在低比特量化中的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等,能够有效提升扩散大语言模型在资源受限环境下的应用性能,具有重要的实际价值和广泛的未来影响。

📄 摘要(原文)

Diffusion large language models (dLLMs), which offer bidirectional context and flexible masked-denoising generation, are emerging as a compelling alternative to autoregressive (AR) LLMs. However, like AR LLMs, their model sizes continue to grow, motivating weight compression for deployment. Although post-training quantization (PTQ) is effective for AR LLMs, directly transferring it to dLLMs at 2-bit leads to unsatisfactory performance. To tackle these challenges, we propose Quant-dLLM, an ultra-low-bit PTQ framework tailored to dLLMs. Since masked-denoising activations in dLLMs differ from the fully visible signals assumed by standard PTQ methods, we introduce Masked Calibration Simulation (MCS) to align calibration with the timestep-dependent masking, which yields more reliable calibrations. Moreover, we propose a Data-aware Any-order Quantizer (DAQ) that learns ultra-low-bit weight representations via an optimization algorithm. It performs iterative approximation guided by our simulated calibration data. In addition, under a strict 2-bit budget, we introduce Adaptive Blockwise Mixed Precision (ABMP), a sensitivity-based precision allocation scheme that adaptively assigns bit width across channel groups. When restricted to 2-bit precision, Quant-dLLM consistently achieves higher accuracy than state-of-the-art (SOTA) AR-transfer PTQ methods on dLLMs. The code and models will be available at: https://github.com/ZTA2785/Quant-dLLM.