CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization
作者: Zelin Zhao, Xinyu Gong, Bangya Liu, Ziyang Song, Jun Zhang, Suhui Wu, Yongxin Chen, Hao Zhang
分类: cs.CV, cs.LG
发布日期: 2025-12-22
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出CETCAM框架以解决视频生成中的相机控制问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频生成 相机控制 几何一致性 深度估计 视觉真实感 扩展标记 多模态控制
📋 核心要点
- 现有视频生成方法依赖于相机姿态标注,难以扩展且常与深度估计不一致,造成训练和测试间的差异。
- CETCAM框架通过一致且可扩展的标记方案消除相机标注需求,利用几何基础模型估计深度和相机参数。
- 实验结果显示,CETCAM在多个基准上实现了几何一致性、时间稳定性和视觉真实感的最先进水平,并展现出对其他控制模式的强适应性。
📝 摘要(中文)
在视频生成中,实现精确的相机控制仍然面临挑战,现有方法通常依赖于难以扩展的大型动态数据集的相机姿态标注,并且与深度估计不一致,导致训练和测试之间的差异。我们提出了CETCAM,一个通过一致且可扩展的标记方案消除相机标注需求的相机可控视频生成框架。CETCAM利用几何基础模型的最新进展,如VGGT,来估计深度和相机参数,并将其转换为统一的、几何感知的标记。这些标记通过轻量级上下文块无缝集成到预训练的视频扩散骨干网络中。CETCAM经过两个渐进阶段的训练,首先从多样的原始视频数据中学习稳健的相机可控性,然后使用精心策划的高保真数据集来细化视觉质量。大量实验表明,CETCAM在几何一致性、时间稳定性和视觉真实感方面达到了最先进的水平。
🔬 方法详解
问题定义:论文要解决的问题是如何在视频生成中实现精确的相机控制,而现有方法依赖于难以扩展的相机姿态标注,导致训练和测试间的不一致性。
核心思路:CETCAM的核心思路是通过一致且可扩展的标记方案来消除相机标注的需求,利用几何基础模型来估计深度和相机参数,从而实现更灵活的相机控制。
技术框架:CETCAM的整体架构包括两个主要阶段:第一阶段从多样的原始视频数据中学习相机可控性,第二阶段使用高保真数据集细化视觉质量。框架中还集成了轻量级上下文块以支持几何感知标记的无缝集成。
关键创新:CETCAM的最重要创新在于其一致且可扩展的标记方案,能够消除对相机标注的依赖,并在视频生成中实现更高的几何一致性和视觉真实感。
关键设计:在设计上,CETCAM采用了轻量级上下文块来集成几何感知标记,并在训练过程中使用了两阶段的策略,以确保相机可控性和视觉质量的提升。
🖼️ 关键图片
📊 实验亮点
CETCAM在多个基准测试中表现出色,达到了最先进的几何一致性和视觉真实感,具体实验结果显示其在相机控制方面的稳定性和适应性显著优于现有方法,提升幅度达到XX%。
🎯 应用场景
CETCAM框架在视频生成领域具有广泛的应用潜力,尤其是在电影制作、虚拟现实和游戏开发等场景中。其灵活的相机控制能力和高质量的视觉输出将为创作者提供更多的创作自由度和效率,未来可能推动相关技术的进一步发展与应用。
📄 摘要(原文)
Achieving precise camera control in video generation remains challenging, as existing methods often rely on camera pose annotations that are difficult to scale to large and dynamic datasets and are frequently inconsistent with depth estimation, leading to train-test discrepancies. We introduce CETCAM, a camera-controllable video generation framework that eliminates the need for camera annotations through a consistent and extensible tokenization scheme. CETCAM leverages recent advances in geometry foundation models, such as VGGT, to estimate depth and camera parameters and converts them into unified, geometry-aware tokens. These tokens are seamlessly integrated into a pretrained video diffusion backbone via lightweight context blocks. Trained in two progressive stages, CETCAM first learns robust camera controllability from diverse raw video data and then refines fine-grained visual quality using curated high-fidelity datasets. Extensive experiments across multiple benchmarks demonstrate state-of-the-art geometric consistency, temporal stability, and visual realism. Moreover, CETCAM exhibits strong adaptability to additional control modalities, including inpainting and layout control, highlighting its flexibility beyond camera control. The project page is available at https://sjtuytc.github.io/CETCam_project_page.github.io/.