GenDeF: Learning Generative Deformation Field for Video Generation
作者: Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang, Yujun Shen, Chunhua Shen
分类: cs.CV
发布日期: 2023-12-07
备注: Project page: https://aim-uofa.github.io/GenDeF/
💡 一句话要点
GenDeF:通过学习生成形变场实现高质量视频生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频生成 生成形变场 解耦表示 时间一致性 图像生成 GAN 光流
📋 核心要点
- 现有视频生成方法难以保证视觉质量和时间一致性,运动建模面临挑战。
- 提出GenDeF,通过学习生成形变场扭曲静态图像来生成视频,解耦内容和运动。
- 实验表明,GenDeF在视频质量和时间一致性上优于现有方法,并易于视频编辑等应用。
📝 摘要(中文)
本文提出了一种新的视频生成方法。不同于直接合成视频帧序列,我们通过生成形变场(GenDeF)来扭曲一个静态图像,从而渲染视频。这种方法具有三个显著优势:首先,可以充分利用训练良好的图像生成器来合成静态图像(也称为规范图像),降低了视频生成的难度,从而获得更好的视觉质量。其次,可以轻松地将形变场转换为光流,从而可以应用显式的结构正则化进行运动建模,从而产生时间上一致的结果。第三,内容和运动的解耦允许用户通过处理其对应的静态图像来处理合成视频,而无需任何调整,从而促进了视频编辑、关键点跟踪和视频分割等许多应用。在三个常见的视频生成基准上的定性和定量结果都证明了我们的GenDeF方法的优越性。
🔬 方法详解
问题定义:现有视频生成方法通常直接生成帧序列,这导致两个主要问题:一是难以保证生成视频的视觉质量,因为需要同时学习内容和运动;二是难以保证生成视频的时间一致性,因为帧与帧之间的关系建模复杂。这些问题限制了视频生成技术的应用。
核心思路:GenDeF的核心思想是将视频生成分解为两个步骤:首先,使用一个预训练的图像生成器生成一个高质量的静态图像(canonical image),代表视频的内容;然后,学习一个生成形变场(generative deformation field),用于扭曲这个静态图像,从而产生视频的运动。通过这种方式,内容和运动被解耦,可以分别进行优化。
技术框架:GenDeF的整体框架包括两个主要模块:静态图像生成器和形变场生成器。静态图像生成器可以使用现有的GAN或其他图像生成模型。形变场生成器是一个神经网络,输入是随机噪声,输出是形变场,用于扭曲静态图像。整个流程如下:1. 从随机噪声中采样;2. 使用形变场生成器生成形变场;3. 使用静态图像生成器生成静态图像;4. 使用形变场扭曲静态图像,生成视频帧。
关键创新:GenDeF的关键创新在于使用生成形变场来建模视频的运动。与直接生成帧序列相比,这种方法具有以下优势:1. 可以充分利用现有的图像生成技术,生成高质量的静态图像;2. 可以通过对形变场进行正则化,保证视频的时间一致性;3. 内容和运动的解耦使得视频编辑等应用更加容易。
关键设计:形变场生成器通常采用U-Net结构,输入是随机噪声,输出是二维向量场,表示每个像素的位移。损失函数包括:1. 对抗损失,用于保证生成形变场的真实性;2. 光流一致性损失,用于保证视频的时间一致性;3. 可选的结构正则化损失,用于鼓励形变场的平滑性。静态图像生成器可以使用预训练的StyleGAN2等模型。
📊 实验亮点
GenDeF在三个视频生成基准测试中取得了显著的成果。在定量评估方面,GenDeF在FID和KID指标上均优于现有方法,表明其生成的视频具有更高的视觉质量。在定性评估方面,GenDeF生成的视频具有更好的时间一致性,并且易于进行视频编辑等操作。例如,通过改变静态图像的风格,可以轻松地改变生成视频的风格。
🎯 应用场景
GenDeF具有广泛的应用前景,包括视频编辑(如风格迁移、内容替换)、视频修复(如插帧、去模糊)、视频生成(如游戏、电影制作)等领域。通过解耦内容和运动,GenDeF可以实现更加灵活和可控的视频生成,为相关应用带来新的可能性,并有望推动视频内容创作的自动化和智能化。
📄 摘要(原文)
We offer a new perspective on approaching the task of video generation. Instead of directly synthesizing a sequence of frames, we propose to render a video by warping one static image with a generative deformation field (GenDeF). Such a pipeline enjoys three appealing advantages. First, we can sufficiently reuse a well-trained image generator to synthesize the static image (also called canonical image), alleviating the difficulty in producing a video and thereby resulting in better visual quality. Second, we can easily convert a deformation field to optical flows, making it possible to apply explicit structural regularizations for motion modeling, leading to temporally consistent results. Third, the disentanglement between content and motion allows users to process a synthesized video through processing its corresponding static image without any tuning, facilitating many applications like video editing, keypoint tracking, and video segmentation. Both qualitative and quantitative results on three common video generation benchmarks demonstrate the superiority of our GenDeF method.