On the Quantization Robustness of Diffusion Language Models in Coding Benchmarks

📄 arXiv: 2604.20079v1 📥 PDF

作者: Aarav Gupta, Gururaj Deshpande, Chandreyi Chakraborty

分类: cs.LG, cs.CL

发布日期: 2026-04-22


💡 一句话要点

研究扩散语言模型在代码生成任务中量化鲁棒性,发现其优于自回归模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 量化 代码生成 模型压缩 鲁棒性

📋 核心要点

  1. 自回归LLM在代码生成上性能优异,但计算和存储成本高昂,限制了其部署。
  2. 论文探索了扩散语言模型(d-LLMs)的量化鲁棒性,旨在降低推理成本并保持性能。
  3. 实验表明,扩散模型CoDA在低比特量化下比自回归模型Qwen3-1.7B更鲁棒,精度损失更小。

📝 摘要(中文)

自回归大型语言模型(LLMs)在代码任务上表现出色,但内存和推理成本很高。基于扩散的语言模型(d-LLMs)通过迭代去噪提供有界的推理成本,但其在训练后量化(PTQ)下的行为研究较少。本文研究了PTQ技术,特别是GPTQ和改进的Hessian感知量化(HAWQ)算法,在基于扩散的编码LLM (CoDA)上的应用和鲁棒性。观察到,在标准化的评估流程下,这些方法应用于CoDA时,在低比特宽度下比其自回归对应模型Qwen3-1.7B表现出更强的鲁棒性。研究发现,在本文的设置中,CoDA在低比特宽度(2-4比特)下表现出更强的鲁棒性,在HumanEval和MBPP基准测试中精度下降更小。此外,源自HAWQ的混合精度配置在精度、延迟和内存之间提供了平滑的权衡。结果表明,由于更强的量化鲁棒性,扩散LLM可能为高效部署提供优势。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在代码生成任务中部署成本高昂的问题。现有的自回归模型虽然性能强大,但其高内存占用和推理延迟限制了它们在资源受限环境中的应用。训练后量化(PTQ)是一种降低模型大小和加速推理的有效方法,但自回归模型在低比特量化下性能下降明显。因此,如何提高模型在量化后的鲁棒性,同时保持其代码生成能力,是本文要解决的核心问题。

核心思路:论文的核心思路是探索扩散语言模型(d-LLMs)在量化方面的优势。与自回归模型不同,d-LLMs通过迭代去噪过程进行推理,这可能使其对量化噪声更具鲁棒性。通过对d-LLMs进行量化并与自回归模型进行比较,论文旨在验证d-LLMs是否能在低比特量化下保持更好的性能。这种思路基于d-LLMs的推理方式与自回归模型不同,可能对量化引入的误差具有不同的敏感性。

技术框架:论文采用的整体框架包括以下几个步骤:首先,选择一个基于扩散的编码LLM (CoDA)和一个自回归模型(Qwen3-1.7B)作为研究对象。然后,应用两种PTQ技术,即GPTQ和改进的Hessian感知量化(HAWQ),对这两个模型进行量化。接下来,在HumanEval和MBPP代码生成基准测试上评估量化后模型的性能。最后,比较两个模型在不同比特宽度下的性能下降情况,并分析HAWQ提供的混合精度配置的性能。

关键创新:论文的关键创新在于首次系统性地研究了扩散语言模型在代码生成任务中的量化鲁棒性。虽然之前已经有关于量化自回归模型的研究,但对扩散模型的量化特性知之甚少。论文通过实验证明,扩散模型在低比特量化下比自回归模型更鲁棒,这为高效部署大型语言模型提供了一种新的思路。此外,论文还探索了HAWQ算法在扩散模型上的应用,并发现其混合精度配置可以在精度、延迟和内存之间实现良好的权衡。

关键设计:论文的关键设计包括:1) 选择CoDA作为扩散模型的代表,因为它是一个专门为代码生成设计的模型。2) 使用GPTQ和HAWQ两种不同的量化方法,以验证结果的普遍性。3) 在HumanEval和MBPP两个常用的代码生成基准测试上进行评估,以确保结果的可靠性。4) 详细分析不同比特宽度下的性能下降情况,以及HAWQ混合精度配置的性能,以提供更全面的信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在2-4比特量化下,扩散模型CoDA在HumanEval和MBPP基准测试上的精度下降小于自回归模型Qwen3-1.7B,表明其具有更强的量化鲁棒性。此外,HAWQ提供的混合精度配置可以在精度、延迟和内存之间实现平滑的权衡,为实际部署提供了灵活的选择。这些结果表明,扩散模型在低比特量化下具有优势,为高效部署大型语言模型提供了一种新的途径。

🎯 应用场景

该研究成果可应用于资源受限环境下的代码生成任务,例如移动设备、嵌入式系统或边缘计算场景。通过利用扩散模型在量化方面的优势,可以在这些平台上部署更高效、更轻量级的代码生成模型,从而降低计算成本和能源消耗。此外,该研究还可以推动扩散模型在其他自然语言处理任务中的应用,例如机器翻译、文本摘要等。

📄 摘要(原文)

Auto-regressive Large Language Models (LLMs) achieve strong performance on coding tasks, but incur high memory and inference costs. Diffusion-based language models (d-LLMs) offer bounded inference cost via iterative denoising, but their behavior under post-training quantization (PTQ) has been sparsely explored. We investigate the application and robustness of PTQ techniques, specifically GPTQ and a modified Hessian-Aware Quantization (HAWQ) algorithm, on a diffusion-based coding LLM (CoDA) and observe that these methods applied to CoDA exhibit greater robustness at low bitwidths compared to Qwen3-1.7B, its auto-regressive counterpart, under a standardized evaluation pipeline. We find that in our setup, CoDA exhibits greater robustness at low bitwidths (2-4 bits), with smaller accuracy degradation across HumanEval and MBPP benchmarks. Additionally, mixed-precision configurations derived from HAWQ provide smooth trade-offs across accuracy, latency, and memory. The results suggest that diffusion LLMs may offer advantages for efficient deployment due to more quantization-resilience.