Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models

作者: Tianao Zhang, Zhiteng Li, Xianglong Yan, Haotong Qin, Yong Guo, Yulun Zhang

分类: cs.LG, cs.AI

发布日期: 2025-09-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出Quant-dLLM以解决扩散大语言模型的低比特量化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散大语言模型 后训练量化 低比特量化 掩码校准 数据感知量化 自适应精度分配 优化算法

📋 核心要点

现有的后训练量化方法在将2比特直接应用于扩散大语言模型时，导致性能不佳，无法满足实际需求。
本文提出了Quant-dLLM框架，采用掩码校准仿真和数据感知任意顺序量化器，优化了低比特量化过程。
在严格的2比特预算下，Quant-dLLM在dLLMs上实现了比现有最先进AR转移PTQ方法更高的准确率。

📝 摘要（中文）

扩散大语言模型（dLLMs）因其双向上下文和灵活的掩码去噪生成而成为自回归（AR）大语言模型的有力替代。然而，dLLMs的模型规模不断增长，迫切需要权重压缩以便于部署。尽管后训练量化（PTQ）对AR LLMs有效，但直接应用于dLLMs的2比特量化效果不佳。为此，本文提出了Quant-dLLM，一个专为dLLMs设计的超低比特PTQ框架。通过引入掩码校准仿真（MCS），我们使得校准与时间步依赖的掩码相一致，从而获得更可靠的校准结果。此外，我们提出了一种数据感知任意顺序量化器（DAQ），通过优化算法学习超低比特权重表示。在严格的2比特预算下，Quant-dLLM在dLLMs上始终优于现有的AR转移PTQ方法。

🔬 方法详解

问题定义：本文旨在解决扩散大语言模型在后训练量化中面临的性能下降问题，现有方法在2比特量化时无法有效适应dLLMs的特性。

核心思路：提出Quant-dLLM框架，通过掩码校准仿真（MCS）和数据感知任意顺序量化器（DAQ），使得量化过程更符合dLLMs的特性，从而提高量化后的模型性能。

技术框架：Quant-dLLM的整体架构包括三个主要模块：掩码校准仿真模块、数据感知任意顺序量化模块和自适应块混合精度分配模块（ABMP），通过这些模块协同工作，实现超低比特量化。

关键创新：最重要的创新在于引入了掩码校准仿真（MCS），使得校准过程能够适应时间步依赖的掩码特性，此外，DAQ通过优化算法学习权重表示，显著提升了量化精度。

关键设计：在设计中，ABMP根据通道组的敏感性自适应分配比特宽度，确保在2比特预算下的最佳性能，同时在损失函数和网络结构上进行了精细调整，以适应dLLMs的特性。

🖼️ 关键图片

📊 实验亮点

在严格的2比特预算下，Quant-dLLM在dLLMs上实现了比现有最先进AR转移PTQ方法高出显著的准确率，具体性能数据表明，Quant-dLLM在多个基准测试中均优于传统方法，展示了其在低比特量化中的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等，能够有效提升扩散大语言模型在资源受限环境下的应用性能，具有重要的实际价值和广泛的未来影响。

📄 摘要（原文）

Diffusion large language models (dLLMs), which offer bidirectional context and flexible masked-denoising generation, are emerging as a compelling alternative to autoregressive (AR) LLMs. However, like AR LLMs, their model sizes continue to grow, motivating weight compression for deployment. Although post-training quantization (PTQ) is effective for AR LLMs, directly transferring it to dLLMs at 2-bit leads to unsatisfactory performance. To tackle these challenges, we propose Quant-dLLM, an ultra-low-bit PTQ framework tailored to dLLMs. Since masked-denoising activations in dLLMs differ from the fully visible signals assumed by standard PTQ methods, we introduce Masked Calibration Simulation (MCS) to align calibration with the timestep-dependent masking, which yields more reliable calibrations. Moreover, we propose a Data-aware Any-order Quantizer (DAQ) that learns ultra-low-bit weight representations via an optimization algorithm. It performs iterative approximation guided by our simulated calibration data. In addition, under a strict 2-bit budget, we introduce Adaptive Blockwise Mixed Precision (ABMP), a sensitivity-based precision allocation scheme that adaptively assigns bit width across channel groups. When restricted to 2-bit precision, Quant-dLLM consistently achieves higher accuracy than state-of-the-art (SOTA) AR-transfer PTQ methods on dLLMs. The code and models will be available at: https://github.com/ZTA2785/Quant-dLLM.

Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理