VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
作者: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
分类: cs.CV
发布日期: 2024-07-17 (更新: 2025-03-22)
备注: ICLR 2025; Project Page: https://snap-research.github.io/vd3d/
💡 一句话要点
VD3D:驯服大型视频扩散Transformer,实现3D相机控制
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 扩散模型 Transformer 相机控制 Plücker坐标
📋 核心要点
- 现有文本到视频模型缺乏对相机运动的精细控制,限制了其在内容创作和3D视觉等领域的应用。
- 提出一种基于ControlNet的条件机制,利用Plücker坐标的时空相机嵌入,实现对Transformer视频扩散模型的相机控制。
- 在RealEstate10K数据集上微调后,该方法在可控视频生成方面取得了最先进的性能。
📝 摘要(中文)
本文提出了一种针对基于Transformer的视频扩散模型进行3D相机控制的方法。现有的文本到视频生成模型能够根据文本描述生成连贯、逼真的复杂视频,但大多缺乏对相机运动的精细控制,这对于内容创作、视觉特效和3D视觉等下游应用至关重要。虽然一些基于U-Net的扩散模型能够解耦空间和时间生成,从而实现相机姿态控制,但Transformer架构的视频扩散模型在这方面仍存在空白。本文提出了一种类似于ControlNet的条件机制,利用基于Plücker坐标的时空相机嵌入来驯服视频Transformer。在RealEstate10K数据集上进行微调后,该方法在可控视频生成方面表现出最先进的性能。据我们所知,我们的工作是第一个为基于Transformer的视频扩散模型实现相机控制。
🔬 方法详解
问题定义:现有文本到视频生成模型,特别是基于Transformer的架构,缺乏对相机运动的精细控制。虽然基于U-Net的模型可以通过解耦空间和时间信息来实现相机控制,但Transformer架构的固有特性使得直接应用这些方法变得困难。因此,如何为Transformer架构的视频扩散模型引入可控的相机运动是本文要解决的核心问题。现有方法的痛点在于无法有效利用Transformer强大的时空建模能力,同时实现精确的相机控制。
核心思路:本文的核心思路是借鉴ControlNet的条件控制机制,将相机姿态信息以一种Transformer能够理解的方式嵌入到扩散模型的训练过程中。具体来说,利用Plücker坐标来表示相机在三维空间中的运动轨迹,并将这些坐标转化为时空相机嵌入。通过在Transformer的自注意力层中引入这些嵌入,模型可以学习到相机运动与视频内容之间的关系,从而实现可控的视频生成。
技术框架:整体框架基于一个预训练的视频扩散Transformer模型。首先,将相机姿态信息转换为Plücker坐标,然后通过一个嵌入层将其映射为时空相机嵌入。这些嵌入被添加到Transformer的自注意力层的输入中,从而引导视频的生成过程。在训练阶段,模型通过最小化生成视频与目标视频之间的差异来学习相机运动与视频内容之间的对应关系。
关键创新:最重要的技术创新点在于将ControlNet的条件控制机制成功应用于Transformer架构的视频扩散模型。与现有方法相比,本文的方法能够充分利用Transformer强大的时空建模能力,同时实现对相机运动的精确控制。此外,使用Plücker坐标来表示相机姿态信息也是一个关键创新,因为它能够有效地捕捉相机在三维空间中的运动轨迹。
关键设计:Plücker坐标的选择是因为其能够简洁且完整地表示相机在三维空间中的位姿。时空相机嵌入的设计需要考虑到Transformer的输入维度和自注意力机制的特点。损失函数通常采用L1或L2损失,用于衡量生成视频与目标视频之间的差异。网络结构方面,需要在Transformer的自注意力层中合理地插入相机嵌入,以确保模型能够有效地利用这些信息。
🖼️ 关键图片
📊 实验亮点
该方法在RealEstate10K数据集上进行了评估,结果表明其在可控视频生成方面取得了最先进的性能。与现有方法相比,该方法能够生成具有更精确相机运动和更高视觉质量的视频。实验结果还表明,使用Plücker坐标来表示相机姿态信息能够有效地提高模型的性能。
🎯 应用场景
该研究成果可广泛应用于内容创作、视觉特效、3D视觉等领域。例如,可以用于生成具有特定相机运动的虚拟场景,为电影制作提供便利。此外,还可以用于训练机器人或自动驾驶汽车,使其能够更好地理解和预测周围环境的变化。未来,该技术有望进一步发展,实现更加精细和复杂的相机控制,从而创造出更加逼真和引人入胜的视频内容。
📄 摘要(原文)
Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visual effects, and 3D vision. Recently, new methods demonstrate the ability to generate videos with controllable camera poses these techniques leverage pre-trained U-Net-based diffusion models that explicitly disentangle spatial and temporal generation. Still, no existing approach enables camera control for new, transformer-based video diffusion models that process spatial and temporal information jointly. Here, we propose to tame video transformers for 3D camera control using a ControlNet-like conditioning mechanism that incorporates spatiotemporal camera embeddings based on Plücker coordinates. The approach demonstrates state-of-the-art performance for controllable video generation after fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our work is the first to enable camera control for transformer-based video diffusion models.