AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

📄 arXiv: 2411.18673v4 📥 PDF

作者: Sherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

分类: cs.CV

发布日期: 2024-11-27 (更新: 2025-05-06)

备注: CVPR 2025; Project Page: https://snap-research.github.io/ac3d/


💡 一句话要点

AC3D:通过分析和改进视频扩散Transformer中的3D相机控制,提升视频生成质量。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频生成 3D相机控制 扩散模型 Transformer 姿态估计 低频特性 数据集增强

📋 核心要点

  1. 现有文本到视频模型中的3D相机控制通常不精确,且会降低视频生成质量。
  2. 通过分析相机运动的频率特性和Transformer内部表征,优化姿态条件调度和相机信息注入方式。
  3. AC3D架构在提升相机控制精度的同时,减少了训练参数,提高了训练速度和视频质量。

📝 摘要(中文)

本文分析并改进了文本到视频模型中3D相机控制的精确性,同时避免牺牲视频生成质量。研究发现,视频中相机运动引起的运动本质上是低频的,因此调整了训练和测试阶段的姿态条件调度,加速了训练收敛,并提高了视觉和运动质量。通过探究无条件视频扩散Transformer的表征,发现其隐式地执行相机姿态估计,且只有部分层包含相机信息。因此,限制相机条件注入到部分架构,防止干扰其他视频特征,减少了4倍的训练参数,提高了训练速度,并提升了10%的视觉质量。此外,使用包含2万个多样化动态视频和固定摄像头的精选数据集,帮助模型区分相机和场景运动,改善了姿态条件视频的动态性。最终,设计了先进的3D相机控制(AC3D)架构,成为具有相机控制的生成视频建模的新SOTA模型。

🔬 方法详解

问题定义:现有文本到视频模型在集成3D相机控制时,存在相机控制不精确以及视频生成质量下降的问题。现有的方法未能充分利用相机运动的特性,并且在Transformer架构中对相机信息的处理方式不够精细,导致性能瓶颈。

核心思路:本文的核心思路是通过深入分析相机运动的频率特性以及Transformer内部表征,来优化相机控制策略。具体来说,利用相机运动的低频特性来调整训练和测试的姿态条件调度,并限制相机信息在Transformer中的注入位置,从而提高相机控制的精确性和视频生成质量。

技术框架:AC3D架构基于视频扩散Transformer,主要包含以下几个关键模块:1) 姿态条件调度模块:根据相机运动的低频特性,调整训练和测试阶段的姿态条件调度策略。2) 相机信息注入模块:限制相机信息在Transformer架构中的注入位置,只在包含相机信息的特定层注入。3) 数据集增强模块:使用包含多样化动态视频和固定摄像头的精选数据集,帮助模型区分相机和场景运动。

关键创新:本文的关键创新在于:1) 发现了相机运动的低频特性,并将其应用于姿态条件调度。2) 通过探究Transformer内部表征,确定了包含相机信息的特定层,并限制相机信息在这些层中的注入。3) 构建了一个新的数据集,用于区分相机和场景运动。

关键设计:在姿态条件调度方面,采用了更平滑的调度策略,以适应相机运动的低频特性。在相机信息注入方面,通过实验确定了Transformer中包含相机信息的特定层,并将相机信息限制在这些层中注入。在数据集方面,构建了一个包含2万个多样化动态视频和固定摄像头的精选数据集,并将其与现有的数据集结合使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AC3D架构在生成具有相机控制的视频方面取得了显著的性能提升。通过调整姿态条件调度和限制相机信息注入,AC3D在减少4倍训练参数的同时,提高了训练速度,并提升了10%的视觉质量。此外,使用新的数据集进一步改善了姿态条件视频的动态性,使得生成的视频更加逼真。

🎯 应用场景

AC3D架构可应用于各种需要精确3D相机控制的视频生成任务,例如虚拟现实、游戏开发、电影制作等。该研究成果有助于提升生成视频的真实感和可控性,为用户提供更加沉浸式的体验。未来,该技术有望应用于自动驾驶、机器人导航等领域,实现更加智能化的视觉感知和控制。

📄 摘要(原文)

Numerous works have recently integrated 3D camera control into foundational text-to-video models, but the resulting camera control is often imprecise, and video generation quality suffers. In this work, we analyze camera motion from a first principles perspective, uncovering insights that enable precise 3D camera manipulation without compromising synthesis quality. First, we determine that motion induced by camera movements in videos is low-frequency in nature. This motivates us to adjust train and test pose conditioning schedules, accelerating training convergence while improving visual and motion quality. Then, by probing the representations of an unconditional video diffusion transformer, we observe that they implicitly perform camera pose estimation under the hood, and only a sub-portion of their layers contain the camera information. This suggested us to limit the injection of camera conditioning to a subset of the architecture to prevent interference with other video features, leading to a 4x reduction of training parameters, improved training speed, and 10% higher visual quality. Finally, we complement the typical dataset for camera control learning with a curated dataset of 20K diverse, dynamic videos with stationary cameras. This helps the model distinguish between camera and scene motion and improves the dynamics of generated pose-conditioned videos. We compound these findings to design the Advanced 3D Camera Control (AC3D) architecture, the new state-of-the-art model for generative video modeling with camera control.