ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation

📄 arXiv: 2410.20502v3 📥 PDF

作者: Zongyi Li, Shujie Hu, Shujie Liu, Long Zhou, Jeongsoo Choi, Lingwei Meng, Xun Guo, Jinyu Li, Hefei Ling, Furu Wei

分类: cs.CV

发布日期: 2024-10-27 (更新: 2025-04-15)

备注: Accepted at ICLR2025


💡 一句话要点

ARLON:利用自回归模型增强扩散Transformer,实现长视频生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 长视频生成 扩散模型 自回归模型 Transformer 文本到视频 视频生成 VQ-VAE 时空建模

📋 核心要点

  1. 现有文生视频模型在生成具有丰富运动动态的长视频方面面临数据和计算资源的限制。
  2. ARLON框架利用自回归模型提供粗略的时空信息,指导扩散Transformer生成高质量、时间一致的长视频。
  3. 实验表明,ARLON在动态度和美学质量上显著优于OpenSora-V1.2,并在长视频生成方面达到SOTA。

📝 摘要(中文)

本文提出ARLON,一个新颖的框架,通过整合自回归(AR)模型提供的粗略空间和长程时间信息来指导扩散Transformer(DiT)模型,从而提升扩散Transformer在长视频生成方面的能力。ARLON包含以下关键创新:1) 潜向量量化变分自编码器(VQ-VAE)将DiT模型的输入潜在空间压缩为紧凑的视觉token,桥接AR和DiT模型,平衡学习复杂度和信息密度;2) 自适应的基于范数的语义注入模块将来自AR模型的粗略离散视觉单元集成到DiT模型中,确保在视频生成过程中进行有效的指导;3) 为了增强对AR推理引入的噪声的容错能力,DiT模型在训练时结合了更粗糙的视觉潜在token和不确定性采样模块。实验结果表明,ARLON在VBench的11个指标中的8个上显著优于基线OpenSora-V1.2,在动态度和美学质量方面有显著提高,并在其余3个指标上取得了有竞争力的结果,同时加速了生成过程。此外,ARLON在长视频生成方面实现了最先进的性能。论文还详细分析了推理效率的提高,并展示了一个使用渐进文本提示生成长视频的实际应用。

🔬 方法详解

问题定义:论文旨在解决文本到视频生成中,高效生成具有丰富运动动态和时间一致性的长视频这一难题。现有方法受限于数据和计算资源,难以在保证视频质量的同时,实现长时序的连贯性。

核心思路:论文的核心思路是结合自回归模型(AR)和扩散Transformer(DiT)的优势。AR模型擅长捕捉长程时间依赖关系,但细节不足;DiT模型擅长生成高质量图像,但缺乏对长时序的建模能力。ARLON利用AR模型提供粗略的时空信息,指导DiT模型生成高质量的长视频。

技术框架:ARLON框架包含以下主要模块:1) 潜向量量化变分自编码器(VQ-VAE):将DiT模型的输入潜在空间压缩为紧凑的视觉token,连接AR和DiT模型。2) 自回归模型(AR):预测粗略的离散视觉单元,提供长程时间信息。3) 扩散Transformer(DiT):基于AR模型的指导,生成高质量视频帧。4) 自适应的基于范数的语义注入模块:将AR模型的输出注入到DiT模型中,实现有效的指导。

关键创新:ARLON的关键创新在于将自回归模型和扩散Transformer模型有效结合,利用AR模型提供长程时间信息,指导DiT模型生成高质量视频。此外,自适应的基于范数的语义注入模块和不确定性采样模块进一步提升了模型的性能和鲁棒性。

关键设计:VQ-VAE用于压缩潜在空间,平衡信息密度和计算复杂度。自适应的基于范数的语义注入模块根据DiT模型不同层的特征范数,动态调整AR模型信息的注入强度。不确定性采样模块通过在训练过程中引入噪声,增强DiT模型对AR模型推理误差的鲁棒性。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARLON在VBench的11个指标中的8个上显著优于基线OpenSora-V1.2,尤其在动态度和美学质量方面有显著提升。同时,ARLON在长视频生成方面达到了最先进的性能,并加速了生成过程。具体的性能提升数据和加速比例在论文中有详细展示(未知)。

🎯 应用场景

ARLON在视频内容创作、电影制作、游戏开发等领域具有广泛的应用前景。它可以用于生成各种类型的长视频,例如故事片、纪录片、动画片等。通过结合文本提示,ARLON可以实现高度可控的视频生成,为创作者提供强大的工具。此外,ARLON还可以应用于虚拟现实和增强现实等领域,创造更加沉浸式的用户体验。

📄 摘要(原文)

Text-to-video models have recently undergone rapid and substantial advancements. Nevertheless, due to limitations in data and computational resources, achieving efficient generation of long videos with rich motion dynamics remains a significant challenge. To generate high-quality, dynamic, and temporally consistent long videos, this paper presents ARLON, a novel framework that boosts diffusion Transformers with autoregressive models for long video generation, by integrating the coarse spatial and long-range temporal information provided by the AR model to guide the DiT model. Specifically, ARLON incorporates several key innovations: 1) A latent Vector Quantized Variational Autoencoder (VQ-VAE) compresses the input latent space of the DiT model into compact visual tokens, bridging the AR and DiT models and balancing the learning complexity and information density; 2) An adaptive norm-based semantic injection module integrates the coarse discrete visual units from the AR model into the DiT model, ensuring effective guidance during video generation; 3) To enhance the tolerance capability of noise introduced from the AR inference, the DiT model is trained with coarser visual latent tokens incorporated with an uncertainty sampling module. Experimental results demonstrate that ARLON significantly outperforms the baseline OpenSora-V1.2 on eight out of eleven metrics selected from VBench, with notable improvements in dynamic degree and aesthetic quality, while delivering competitive results on the remaining three and simultaneously accelerating the generation process. In addition, ARLON achieves state-of-the-art performance in long video generation. Detailed analyses of the improvements in inference efficiency are presented, alongside a practical application that demonstrates the generation of long videos using progressive text prompts. See demos of ARLON at http://aka.ms/arlon.