FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis
作者: Wonjoon Jin, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho
分类: cs.CV
发布日期: 2025-02-12 (更新: 2025-03-25)
备注: Our paper has been accepted to CVPR 2025. Website: https://jinwonjoon.github.io/flovd_site/ Code: https://github.com/JinWonjoon/FloVD
💡 一句话要点
FloVD:结合光流与视频扩散模型,实现增强的相机可控视频合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 视频生成 扩散模型 光流 相机控制 视频合成
📋 核心要点
- 现有方法在相机可控视频生成中,难以同时保证相机控制的精确性和物体运动的自然性。
- FloVD通过光流表示相机和物体的运动,利用光流的可估计性和背景光流的3D相关性,实现精确相机控制。
- FloVD采用两阶段合成流程,先生成光流,再以光流为条件合成视频,实验表明优于现有方法。
📝 摘要(中文)
FloVD是一种新颖的视频扩散模型,用于相机可控的视频生成。FloVD利用光流来表示相机和移动物体的运动。这种方法具有两个关键优势。首先,由于光流可以直接从视频中估计,因此我们的方法可以使用任意训练视频,而无需真实的相机参数。其次,由于背景光流编码了不同视点之间的3D相关性,因此我们的方法可以通过利用背景运动来实现详细的相机控制。为了在支持详细相机控制的同时合成自然的物体运动,我们的框架采用了一个两阶段的视频合成流程,包括光流生成和以光流为条件的视频合成。大量的实验表明,我们的方法在精确的相机控制和自然的物体运动合成方面优于以前的方法。
🔬 方法详解
问题定义:现有的相机可控视频生成方法通常需要精确的相机参数作为输入,限制了训练数据的选择范围。此外,如何在实现精确相机控制的同时,保证视频中物体运动的自然性,也是一个挑战。现有方法难以兼顾这两个方面。
核心思路:FloVD的核心思路是利用光流来解耦相机运动和物体运动。光流可以直接从视频中估计,无需相机参数。背景光流蕴含了场景的3D信息,可以用于精确的相机控制。通过将视频生成过程分解为光流生成和光流条件下的视频生成两个阶段,可以分别控制相机运动和物体运动。
技术框架:FloVD采用两阶段的视频合成流程。第一阶段是光流生成,使用一个光流生成网络,根据给定的相机运动指令生成光流序列。第二阶段是光流条件下的视频生成,使用一个视频扩散模型,以生成的光流序列为条件,生成最终的视频。整个框架可以端到端训练。
关键创新:FloVD的关键创新在于使用光流作为相机控制的中间表示。与直接使用相机参数作为输入相比,光流具有以下优势:1)可以直接从视频中估计,无需相机参数;2)背景光流蕴含了场景的3D信息,可以用于精确的相机控制;3)可以解耦相机运动和物体运动,从而更好地控制视频的生成过程。
关键设计:在光流生成阶段,使用一个U-Net结构的生成器,以相机运动指令作为输入,生成光流序列。在视频生成阶段,使用一个3D U-Net结构的扩散模型,以生成的光流序列作为条件,生成视频。损失函数包括光流重建损失和视频重建损失。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FloVD在相机控制的精确性和物体运动的自然性方面均优于现有方法。具体而言,FloVD能够生成具有更准确相机运动轨迹和更自然物体运动的视频。定量指标和定性结果均验证了FloVD的有效性。具体提升幅度未知。
🎯 应用场景
FloVD具有广泛的应用前景,例如虚拟现实、游戏开发、电影制作等领域。它可以用于生成具有精确相机控制和自然物体运动的视频内容,从而提高用户体验和创作效率。此外,FloVD还可以用于数据增强,生成更多的训练数据,从而提高其他视频处理任务的性能。
📄 摘要(原文)
We present FloVD, a novel video diffusion model for camera-controllable video generation. FloVD leverages optical flow to represent the motions of the camera and moving objects. This approach offers two key benefits. Since optical flow can be directly estimated from videos, our approach allows for the use of arbitrary training videos without ground-truth camera parameters. Moreover, as background optical flow encodes 3D correlation across different viewpoints, our method enables detailed camera control by leveraging the background motion. To synthesize natural object motion while supporting detailed camera control, our framework adopts a two-stage video synthesis pipeline consisting of optical flow generation and flow-conditioned video synthesis. Extensive experiments demonstrate the superiority of our method over previous approaches in terms of accurate camera control and natural object motion synthesis.