Q-ARVD: Quantizing Autoregressive Video Diffusion Models

📄 arXiv: 2605.21072v1 📥 PDF

作者: Siao Tang, Xinyin Ma, Gongfan Fang, Xingyi Yang, Xinchao Wang

分类: cs.CV

发布日期: 2026-05-20

备注: Code: https://github.com/tsa18/Q-ARVD


💡 一句话要点

Q-ARVD:提出一种新的量化框架,用于加速自回归视频扩散模型的推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 自回归模型 扩散模型 模型量化 推理加速

📋 核心要点

  1. 自回归视频扩散模型推理成本高昂,阻碍了实际应用,现有量化方法直接应用于该模型效果不佳。
  2. Q-ARVD通过引入帧权重机制和自适应双尺度量化,分别解决帧级敏感性不平衡和异构异常值问题。
  3. 实验结果表明,Q-ARVD显著优于现有量化方法,为自回归视频扩散模型的加速提供了有效方案。

📝 摘要(中文)

自回归视频扩散模型(ARVDs)已成为流式视频生成的一种有前景的架构,为实时交互式视频生成和世界建模铺平了道路。尽管它们具有潜力,但ARVDs的大量推理成本仍然是实际部署的主要障碍,使得模型量化成为提高效率的自然方向。然而,ARVDs的量化在很大程度上仍未被探索。我们的经验分析表明,直接将为标准扩散Transformer开发的现有量化方案应用于ARVDs会导致次优性能,揭示了与双向扩散模型中观察到的不同的量化行为。在本文中,我们确定了量化ARVDs的两个关键挑战:(C1)高度不平衡的帧级量化敏感性。自回归生成过程中的误差累积会导致跨帧的量化敏感性严重倾斜,呈现指数式衰减模式。(C2)权重中突出且异构的异常值模式。权重分布表现出明显的异常值通道,其模式在层类型和块深度之间差异很大。为了解决这些问题,我们提出了Q-ARVD,一种用于精确ARVD量化的新框架。(S1)为了解决高度不平衡的帧级敏感性,Q-ARVD将最终质量感知的帧权重机制纳入量化目标。(S2)为了防止异构异常值降低性能,Q-ARVD引入了一种异常值感知的自适应双尺度量化,它可以自动检测任意层的异常值通道的存在和数量,并隔离它们以保护正常通道。大量的实验证明了Q-ARVD的优越性。

🔬 方法详解

问题定义:论文旨在解决自回归视频扩散模型(ARVDs)量化后性能下降的问题。现有方法,如直接将为标准扩散Transformer设计的量化方案应用于ARVDs,无法达到理想的量化效果。这是因为ARVDs在量化过程中存在两个关键挑战:一是帧级量化敏感性高度不平衡,二是权重中存在突出且异构的异常值模式。

核心思路:论文的核心思路是针对ARVDs的特殊量化挑战,设计专门的量化策略。具体来说,针对帧级量化敏感性不平衡问题,引入最终质量感知的帧权重机制,对不同帧的量化误差进行加权,从而优化整体量化目标。针对权重中的异构异常值模式,采用异常值感知的自适应双尺度量化,自动检测并隔离异常值通道,保护正常通道的量化精度。

技术框架:Q-ARVD框架主要包含两个核心模块:帧权重机制和自适应双尺度量化。首先,通过帧权重机制,根据每一帧对最终视频质量的贡献程度,动态调整其在量化目标中的权重。然后,对于每一层,自适应双尺度量化模块自动检测异常值通道,并将其与正常通道分离,分别进行量化。整个框架旨在最小化量化误差,同时保持视频生成质量。

关键创新:Q-ARVD的关键创新在于其针对ARVDs的特殊量化挑战,提出了定制化的解决方案。与现有量化方法相比,Q-ARVD能够更好地适应ARVDs的自回归特性和权重分布特点,从而实现更高的量化精度和更好的性能。帧权重机制和自适应双尺度量化是两个重要的技术创新点,它们分别解决了帧级敏感性不平衡和异构异常值问题。

关键设计:帧权重机制的关键在于如何确定每一帧的权重。论文可能采用了一种基于经验或学习的方法来估计每一帧对最终视频质量的贡献。自适应双尺度量化的关键在于如何自动检测异常值通道。论文可能采用了一种基于统计或阈值的方法来识别异常值通道,并将其与正常通道分离。具体的损失函数设计可能包括量化误差项和正则化项,以平衡量化精度和模型复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Q-ARVD在自回归视频扩散模型的量化方面取得了显著的性能提升。具体来说,Q-ARVD在保持视频生成质量的同时,显著降低了模型的推理时间。与直接应用现有量化方案相比,Q-ARVD在多个视频数据集上都取得了更好的量化效果,证明了其优越性。

🎯 应用场景

Q-ARVD的潜在应用领域包括实时交互式视频生成、视频会议、虚拟现实/增强现实(VR/AR)以及移动设备上的视频处理。通过降低自回归视频扩散模型的推理成本,Q-ARVD可以使其在资源受限的设备上部署成为可能,从而推动相关技术的普及和应用。该研究的实际价值在于提高了视频生成效率,未来影响在于促进了更流畅、更自然的视频交互体验。

📄 摘要(原文)

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.