Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers

📄 arXiv: 2505.22167v1 📥 PDF

作者: Weilun Feng, Chuanguang Yang, Haotong Qin, Xiangqi Li, Yu Wang, Zhulin An, Libo Huang, Boyu Diao, Zixiang Zhao, Yongjun Xu, Michele Magno

分类: cs.CV

发布日期: 2025-05-28

备注: Accepted to ICML2025

🔗 代码/项目: GITHUB


💡 一句话要点

Q-VDiT:面向视频生成扩散Transformer的精确量化与蒸馏框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 扩散Transformer 模型量化 知识蒸馏 边缘计算

📋 核心要点

  1. 现有图像生成模型的量化方法难以直接应用于视频生成,面临信息损失和优化目标不匹配的挑战。
  2. Q-VDiT通过Token感知量化估计器(TQE)补偿量化误差,并利用时间维护蒸馏(TMD)保持时空相关性。
  3. 实验表明,Q-VDiT在W3A6量化下实现了23.40的场景一致性,显著优于现有量化方法。

📝 摘要(中文)

扩散Transformer(DiT)在视频生成方面表现出卓越的性能。然而,其庞大的参数量和高计算复杂度限制了它们在边缘设备上的部署。量化可以通过降低模型参数的位宽来减少存储需求并加速推理。然而,现有的图像生成模型量化方法不能很好地推广到视频生成任务。我们发现了两个主要挑战:量化过程中的信息损失以及优化目标与视频生成的独特需求之间的不匹配。为了应对这些挑战,我们提出了Q-VDiT,一个专门为视频DiT模型设计的量化框架。从量化的角度来看,我们提出了Token感知量化估计器(TQE),它可以补偿token和特征维度上的量化误差。从优化的角度来看,我们引入了时间维护蒸馏(TMD),它可以保持帧之间的时空相关性,并使每帧的优化都考虑到整体视频上下文。我们的W3A6 Q-VDiT实现了23.40的场景一致性,创造了一个新的基准,并且比当前最先进的量化方法高出1.9倍。代码将在https://github.com/cantbebetter2/Q-VDiT上提供。

🔬 方法详解

问题定义:论文旨在解决视频生成扩散Transformer(DiT)模型量化后性能显著下降的问题。现有的图像生成模型量化方法无法有效处理视频数据中的时序依赖关系,导致量化后的视频质量和一致性大幅降低。此外,优化目标与视频生成的特殊需求不匹配,进一步加剧了性能损失。

核心思路:论文的核心思路是设计一个专门针对视频DiT模型的量化框架,该框架能够同时解决量化误差和优化目标不匹配的问题。通过Token感知量化估计器(TQE)来减少量化带来的信息损失,并通过时间维护蒸馏(TMD)来保持视频帧之间的时空相关性,从而提升量化后视频的质量和一致性。

技术框架:Q-VDiT框架主要包含两个核心模块:Token感知量化估计器(TQE)和时间维护蒸馏(TMD)。TQE负责在量化过程中估计和补偿token和特征维度上的量化误差,从而减少信息损失。TMD则通过蒸馏的方式,将教师模型中的时空相关性知识迁移到量化后的学生模型中,从而保持视频帧之间的一致性。整体流程是先使用TQE进行量化,然后使用TMD进行蒸馏训练。

关键创新:论文的关键创新在于提出了Token感知量化估计器(TQE)和时间维护蒸馏(TMD)。TQE能够自适应地估计和补偿不同token和特征维度上的量化误差,从而更有效地减少量化带来的信息损失。TMD则通过引入时间维度上的约束,使得量化后的模型能够更好地保持视频帧之间的时空相关性,从而提升视频质量。与现有方法相比,Q-VDiT更关注视频数据的特殊性,并针对性地设计了量化和蒸馏策略。

关键设计:TQE的设计关键在于如何有效地估计和补偿量化误差。论文采用了一种基于统计信息的估计方法,根据不同token和特征维度的分布情况,自适应地调整量化参数。TMD的设计关键在于如何将教师模型中的时空相关性知识迁移到学生模型中。论文采用了一种基于时间对比学习的蒸馏方法,通过最小化教师模型和学生模型在时间维度上的特征差异,来保持视频帧之间的一致性。具体的损失函数包括量化损失和蒸馏损失,量化损失用于约束量化误差,蒸馏损失用于约束学生模型学习教师模型的时空相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Q-VDiT在W3A6量化设置下实现了23.40的场景一致性,相比当前最先进的量化方法提升了1.9倍。这一结果表明,Q-VDiT能够显著提升量化后视频生成模型的性能,使其在保持较低计算成本的同时,生成高质量、一致性强的视频内容。

🎯 应用场景

Q-VDiT技术可应用于各种需要视频生成的场景,尤其是在资源受限的边缘设备上,例如移动设备、嵌入式系统和物联网设备。通过降低模型大小和计算复杂度,Q-VDiT使得在这些设备上部署高质量的视频生成模型成为可能,从而推动视频监控、智能家居、自动驾驶等领域的发展。

📄 摘要(原文)

Diffusion transformers (DiT) have demonstrated exceptional performance in video generation. However, their large number of parameters and high computational complexity limit their deployment on edge devices. Quantization can reduce storage requirements and accelerate inference by lowering the bit-width of model parameters. Yet, existing quantization methods for image generation models do not generalize well to video generation tasks. We identify two primary challenges: the loss of information during quantization and the misalignment between optimization objectives and the unique requirements of video generation. To address these challenges, we present Q-VDiT, a quantization framework specifically designed for video DiT models. From the quantization perspective, we propose the Token-aware Quantization Estimator (TQE), which compensates for quantization errors in both the token and feature dimensions. From the optimization perspective, we introduce Temporal Maintenance Distillation (TMD), which preserves the spatiotemporal correlations between frames and enables the optimization of each frame with respect to the overall video context. Our W3A6 Q-VDiT achieves a scene consistency of 23.40, setting a new benchmark and outperforming current state-of-the-art quantization methods by 1.9$\times$. Code will be available at https://github.com/cantbebetter2/Q-VDiT.