REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

📄 arXiv: 2411.13552v3 📥 PDF

作者: Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2024-11-20 (更新: 2025-08-12)

备注: Accepted to ICCV2025. Code available at https://github.com/microsoft/Reducio-VAE

🔗 代码/项目: GITHUB


💡 一句话要点

REDUCIO:利用极度压缩的运动潜在空间,在16秒内生成1K视频

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 扩散模型 潜在空间压缩 VAE 高效训练 图像条件生成

📋 核心要点

  1. 现有视频生成模型训练和推理成本高昂,限制了其大规模应用,主要原因是视频数据存在大量冗余信息未被有效利用。
  2. 论文提出Reducio-VAE,通过图像条件VAE将视频压缩到极小的运动潜在空间,显著降低了后续扩散模型的计算负担。
  3. 实验表明,Reducio-DiT仅需3.2K A100 GPU小时即可完成训练,并在单A100 GPU上以15.5秒的速度生成1024x1024视频。

📝 摘要(中文)

商业视频生成模型虽然展示了逼真、高保真的结果,但仍然受到访问限制。大规模应用的一个关键障碍是昂贵的训练和推理成本。本文认为,视频包含比图像更多的冗余信息,因此可以使用非常少的运动潜在变量进行编码。为此,我们设计了一个图像条件VAE,将视频投影到极度压缩的潜在空间,并基于内容图像解码它们。这种神奇的Reducio技术能够实现比普通2D VAE 64倍的潜在变量压缩,而不会牺牲质量。基于Reducio-VAE,我们可以高效地训练用于高分辨率视频生成的扩散模型。具体来说,我们采用两阶段生成范式,首先通过文本到图像生成来生成条件图像,然后使用提出的Reducio-DiT进行文本-图像到视频生成。大量实验表明,我们的模型在评估中取得了强大的性能。更重要的是,我们的方法显著提高了视频LDM的训练和推理效率。Reducio-DiT总共仅在3.2K A100 GPU小时内完成训练,并且可以在单个A100 GPU上在15.5秒内生成一个16帧的1024x1024视频片段。

🔬 方法详解

问题定义:现有视频生成模型,特别是基于扩散模型的模型,由于视频数据的高维度和时间冗余性,导致训练和推理成本非常高昂。传统的2D VAE在处理视频时无法有效压缩时间维度上的信息,造成计算资源的浪费。

核心思路:论文的核心思路是利用视频中大量的时间冗余信息,设计一种能够将视频压缩到极低维度运动潜在空间的VAE(Reducio-VAE)。通过将视频的运动信息压缩到极小的潜在空间,可以显著降低后续扩散模型需要处理的数据量,从而提高训练和推理效率。

技术框架:整体框架分为两个阶段:第一阶段是使用文本到图像生成模型生成条件图像;第二阶段是使用Reducio-DiT进行文本-图像到视频的生成。Reducio-DiT的核心是Reducio-VAE,它将视频编码为极度压缩的运动潜在空间,并基于条件图像进行解码。扩散模型(DiT)在压缩后的潜在空间中进行训练和推理。

关键创新:最重要的创新点在于Reducio-VAE的设计,它能够将视频压缩到比传统2D VAE小64倍的潜在空间,而不会显著降低视频质量。这种极度压缩是通过图像条件VAE实现的,它利用了视频帧之间的相关性,只保留了关键的运动信息。

关键设计:Reducio-VAE使用图像作为条件,引导视频的编码和解码过程。具体的网络结构和损失函数细节未知,但关键在于如何设计编码器和解码器,以在极度压缩的同时保留视频的关键运动信息。Reducio-DiT的具体结构也未知,但它是在Reducio-VAE的潜在空间上训练的扩散模型,用于生成视频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Reducio-DiT在3.2K A100 GPU小时内完成训练,并在单个A100 GPU上以15.5秒的速度生成16帧的1024x1024视频片段。与传统的视频生成方法相比,该方法显著提高了训练和推理效率,同时保持了较高的视频质量。Reducio-VAE实现了64倍的潜在空间压缩。

🎯 应用场景

该研究成果可应用于各种视频生成场景,例如电影制作、游戏开发、广告创意等。通过降低视频生成的计算成本,可以使更多用户能够访问和使用高质量的视频生成技术。此外,该方法还可以应用于视频压缩、视频编辑等领域,提高相关应用的效率和性能。

📄 摘要(原文)

Commercial video generation models have exhibited realistic, high-fidelity results but are still restricted to limited access. One crucial obstacle for large-scale applications is the expensive training and inference cost. In this paper, we argue that videos contain significantly more redundant information than images, allowing them to be encoded with very few motion latents. Towards this goal, we design an image-conditioned VAE that projects videos into extremely compressed latent space and decode them based on content images. This magic Reducio charm enables 64x reduction of latents compared to a common 2D VAE, without sacrificing the quality. Building upon Reducio-VAE, we can train diffusion models for high-resolution video generation efficiently. Specifically, we adopt a two-stage generation paradigm, first generating a condition image via text-to-image generation, followed by text-image-to-video generation with the proposed Reducio-DiT. Extensive experiments show that our model achieves strong performance in evaluation. More importantly, our method significantly boosts the training and inference efficiency of video LDMs. Reducio-DiT is trained in just 3.2K A100 GPU hours in total and can generate a 16-frame 1024$\times$1024 video clip within 15.5 seconds on a single A100 GPU. Code released at https://github.com/microsoft/Reducio-VAE .