MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation

📄 arXiv: 2507.04290v1 📥 PDF

作者: Weilun Feng, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Boyu Diao, Fuzhen Zhuang, Michele Magno, Yongjun Xu, Yingli Tian, Tingwen Huang

分类: cs.CV

发布日期: 2025-07-06


💡 一句话要点

MPQ-DMv2:面向低比特扩散模型的灵活残差混合精度量化与时序蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 量化 低比特量化 模型压缩 时序蒸馏

📋 核心要点

  1. 现有量化方法在极低比特扩散模型中性能显著下降,主要原因是量化器设计对异常值不友好,初始化和优化策略次优。
  2. MPQ-DMv2通过灵活的残差量化处理异常值,利用面向对象的低秩初始化改善初始化,并采用时序关系蒸馏保持时序一致性。
  3. 实验表明,MPQ-DMv2在极低比特宽度下显著超越现有SOTA方法,在多种生成任务和架构上均表现出色。

📝 摘要(中文)

扩散模型在视觉生成任务中表现出色,但高计算复杂度限制了其在边缘设备上的应用。量化是加速推理和减少内存的一种有前景的技术。然而,现有的量化方法在极低比特(2-4比特)量化下泛化性不佳,直接应用会导致严重的性能下降。我们发现现有的量化框架存在对异常值不友好的量化器设计、次优初始化和优化策略等问题。我们提出了MPQ-DMv2,一种改进的混合精度量化框架,用于极低比特扩散模型。针对量化,由显著异常值引起的不平衡分布对均匀量化器不友好。我们提出了灵活的Z-Order残差混合量化,它利用高效的二元残差分支进行灵活的量化步长,以处理显著误差。对于优化框架,我们从理论上分析了LoRA模块的收敛性和最优性,并提出了面向对象低秩初始化,以使用先验量化误差进行信息初始化。然后,我们提出了基于内存的时序关系蒸馏,以构建在线时间感知像素队列,用于长期去噪时序信息蒸馏,从而确保量化模型和全精度模型之间的整体时序一致性。在各种生成任务上的综合实验表明,我们的MPQ-DMv2在不同的架构上大大超过了当前SOTA方法,尤其是在极低比特宽度下。

🔬 方法详解

问题定义:论文旨在解决极低比特(2-4 bit)量化下,现有量化方法应用于扩散模型时性能严重下降的问题。现有方法的痛点在于对异常值敏感的量化器设计,次优的初始化策略,以及忽略了时间维度信息的优化方式,导致量化后的模型性能大幅降低。

核心思路:论文的核心思路是通过改进量化器设计、优化初始化策略和引入时序信息蒸馏,来提升极低比特量化扩散模型的性能。具体来说,通过灵活的残差量化来处理异常值,利用先验量化误差进行更有效的初始化,并使用时序关系蒸馏来保持量化模型和全精度模型之间的时间一致性。

技术框架:MPQ-DMv2框架主要包含三个核心模块:灵活的Z-Order残差混合量化、面向对象低秩初始化和基于内存的时序关系蒸馏。首先,残差量化模块处理量化过程中的异常值。其次,初始化模块利用量化误差信息进行更有效的初始化。最后,时序关系蒸馏模块通过构建时间感知的像素队列,提取并传递长期去噪过程中的时序信息,从而保证量化模型的时序一致性。

关键创新:论文最重要的技术创新点在于三个方面:一是灵活的Z-Order残差混合量化,它能够有效地处理量化过程中的异常值,提升量化精度;二是面向对象低秩初始化,它利用先验量化误差信息,为LoRA模块提供更有效的初始化,加速收敛并提升性能;三是基于内存的时序关系蒸馏,它通过显式地建模时间维度信息,保证了量化模型在生成过程中的时序一致性,这是现有方法所忽略的。

关键设计:灵活的Z-Order残差混合量化采用二元残差分支,根据量化误差动态调整量化步长。面向对象低秩初始化利用量化误差的统计信息来初始化LoRA模块的参数。基于内存的时序关系蒸馏维护一个时间感知的像素队列,并使用该队列中的像素信息来指导量化模型的训练。损失函数包含量化损失和时序一致性损失,其中时序一致性损失用于约束量化模型和全精度模型在时间维度上的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MPQ-DMv2在多种生成任务上显著超越了现有的SOTA方法,尤其是在极低比特宽度下。例如,在图像生成任务上,MPQ-DMv2在2比特量化下仍然能够保持较高的生成质量,相比于其他方法有显著的性能提升。此外,实验还验证了各个模块的有效性,证明了残差量化、低秩初始化和时序蒸馏对于提升量化模型性能的重要性。

🎯 应用场景

该研究成果可广泛应用于边缘设备上的图像生成、视频生成等领域。通过极低比特量化,可以在计算资源受限的设备上部署高性能的扩散模型,例如移动设备、嵌入式系统等。这有助于推动人工智能技术在资源受限场景下的应用,并为用户提供更便捷、高效的AI服务。此外,该方法还可以应用于模型压缩、模型加速等领域。

📄 摘要(原文)

Diffusion models have demonstrated remarkable performance on vision generation tasks. However, the high computational complexity hinders its wide application on edge devices. Quantization has emerged as a promising technique for inference acceleration and memory reduction. However, existing quantization methods do not generalize well under extremely low-bit (2-4 bit) quantization. Directly applying these methods will cause severe performance degradation. We identify that the existing quantization framework suffers from the outlier-unfriendly quantizer design, suboptimal initialization, and optimization strategy. We present MPQ-DMv2, an improved \textbf{M}ixed \textbf{P}recision \textbf{Q}uantization framework for extremely low-bit \textbf{D}iffusion \textbf{M}odels. For the quantization perspective, the imbalanced distribution caused by salient outliers is quantization-unfriendly for uniform quantizer. We propose \textit{Flexible Z-Order Residual Mixed Quantization} that utilizes an efficient binary residual branch for flexible quant steps to handle salient error. For the optimization framework, we theoretically analyzed the convergence and optimality of the LoRA module and propose \textit{Object-Oriented Low-Rank Initialization} to use prior quantization error for informative initialization. We then propose \textit{Memory-based Temporal Relation Distillation} to construct an online time-aware pixel queue for long-term denoising temporal information distillation, which ensures the overall temporal consistency between quantized and full-precision model. Comprehensive experiments on various generation tasks show that our MPQ-DMv2 surpasses current SOTA methods by a great margin on different architectures, especially under extremely low-bit widths.