FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
作者: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
分类: cs.CV, cs.MM
发布日期: 2023-12-29
备注: Project website: https://jeff-liangf.github.io/projects/flowvid/
💡 一句话要点
FlowVid:利用不完美光流实现一致的视频到视频合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频合成 扩散模型 光流 时间一致性 视频编辑
📋 核心要点
- 视频到视频合成的关键挑战在于保持时间一致性,现有方法难以有效利用和处理不完美的光流信息。
- FlowVid通过将光流作为扩散模型的补充参考,允许模型在利用光流信息的同时,容忍其不完美性,从而实现一致的视频合成。
- 实验表明,FlowVid在灵活性、效率和质量方面均优于现有方法,生成速度更快,用户偏好度更高。
📝 摘要(中文)
扩散模型已经变革了图像到图像(I2I)的合成,并且正在渗透到视频领域。然而,视频到视频(V2V)合成的进展一直受到保持视频帧之间时间一致性的挑战的阻碍。本文提出了一种一致的V2V合成框架,通过联合利用源视频中的空间条件和时间光流线索。与先前严格遵循光流的方法相反,我们的方法利用其优势,同时处理光流估计中的不完美性。我们通过从第一帧进行扭曲来编码光流,并将其作为扩散模型中的补充参考。这使得我们的模型能够通过使用任何流行的I2I模型编辑第一帧,然后将编辑传播到后续帧来进行视频合成。我们的V2V模型FlowVid展示了卓越的特性:(1)灵活性:FlowVid与现有的I2I模型无缝协作,促进各种修改,包括风格化、对象交换和局部编辑。(2)效率:生成一个4秒、30 FPS和512x512分辨率的视频仅需1.5分钟,分别比CoDeF、Rerender和TokenFlow快3.1倍、7.2倍和10.5倍。(3)高质量:在用户研究中,我们的FlowVid在45.7%的时间里更受欢迎,优于CoDeF(3.5%)、Rerender(10.2%)和TokenFlow(40.4%)。
🔬 方法详解
问题定义:视频到视频(V2V)合成旨在根据给定的输入视频生成新的视频内容。现有的方法在保持生成视频的时间一致性方面面临挑战,尤其是在处理不完美的光流估计时。严格依赖光流的方法容易受到光流误差的影响,导致生成视频出现闪烁或不连贯的现象。
核心思路:FlowVid的核心思路是将光流作为扩散模型的辅助信息,而不是完全依赖它。通过将光流编码为从第一帧扭曲得到的特征,并将其作为扩散模型的条件输入,模型可以在利用光流提供的运动信息的同时,减轻光流误差的影响。这种方法允许模型在一定程度上“忽略”不完美的光流,从而生成更稳定的视频。
技术框架:FlowVid的整体框架包括以下几个主要步骤:1) 使用光流估计器计算源视频的光流。2) 将光流编码为从第一帧扭曲得到的特征。3) 使用现有的图像到图像(I2I)模型编辑第一帧。4) 将编辑后的第一帧和编码后的光流作为扩散模型的条件输入,生成后续帧。扩散模型以迭代的方式逐步去噪,最终生成完整的视频。
关键创新:FlowVid的关键创新在于其对光流的使用方式。与以往严格依赖光流的方法不同,FlowVid将光流作为扩散模型的辅助信息,允许模型在利用光流提供的运动信息的同时,容忍其不完美性。这种方法有效地解决了光流误差导致的时间不一致性问题。
关键设计:FlowVid的关键设计包括:1) 使用预训练的光流估计器,例如RAFT,来提取光流信息。2) 使用双线性插值等方法,根据光流将第一帧扭曲到后续帧,得到光流编码特征。3) 将光流编码特征与编辑后的第一帧一起输入到扩散模型中,作为条件信息。4) 使用标准的扩散模型训练和推理流程,例如DDPM或DDIM。
📊 实验亮点
FlowVid在视频到视频合成任务上取得了显著的性能提升。实验结果表明,FlowVid生成一个4秒、30 FPS和512x512分辨率的视频仅需1.5分钟,比CoDeF快3.1倍,比Rerender快7.2倍,比TokenFlow快10.5倍。在用户研究中,FlowVid的偏好度为45.7%,显著优于CoDeF(3.5%)、Rerender(10.2%)和TokenFlow(40.4%)。这些结果表明,FlowVid在效率和质量方面均优于现有方法。
🎯 应用场景
FlowVid具有广泛的应用前景,包括视频编辑、内容创作、电影特效、游戏开发等领域。它可以用于快速生成高质量的视频内容,例如将草图转换为逼真的视频,或者将静态图像转换为动态视频。此外,FlowVid还可以用于视频修复和增强,例如去除视频中的噪声或修复损坏的帧。该技术有望降低视频制作的门槛,并为创意表达提供更多可能性。
📄 摘要(原文)
Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).