VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
作者: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
分类: cs.CV, cs.AI, cs.LG, cs.MM
发布日期: 2025-02-11 (更新: 2025-09-26)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
VidCRAFT3:通过相机、物体和光照控制实现图像到视频的生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像到视频生成 可控视频生成 相机控制 物体运动控制 光照控制 3D重建 注意力机制
📋 核心要点
- 现有I2V方法缺乏对相机、物体和光照的联合控制,限制了内容创作的精度和灵活性,且缺乏高质量的联合标注数据集。
- VidCRAFT3通过Image2Cloud、ObjMotionNet和空间三重注意力Transformer,实现了对相机、物体和光照的独立及联合控制。
- VidCRAFT3在控制精度和视觉连贯性方面优于现有方法,并贡献了包含光照方向标注的合成视频数据集VLD。
📝 摘要(中文)
可控的图像到视频(I2V)生成技术将参考图像转换为连贯的视频,并由用户指定的控制信号引导。在内容创作流程中,精确且同步地控制相机运动、物体运动和光照方向,可以提高准确性和灵活性。然而,现有方法通常将这些控制信号分开处理,这主要是由于缺乏具有高质量联合标注的数据集以及跨模态的不匹配控制空间。我们提出了VidCRAFT3,一个统一且灵活的I2V框架,它通过集成三个核心组件,支持对相机运动、物体运动和光照方向的独立和联合控制。Image2Cloud从参考图像重建3D点云,以实现精确的相机运动控制。ObjMotionNet将稀疏物体轨迹编码为多尺度光流特征,以引导物体运动。空间三重注意力Transformer通过并行交叉注意力集成光照方向嵌入。为了解决联合标注数据的稀缺问题,我们整理了VideoLightingDirection (VLD)数据集,该数据集包含带有逐帧光照方向标签的合成静态场景视频片段,并采用三阶段训练策略,从而无需完全联合标注即可实现稳健的学习。大量实验表明,VidCRAFT3在控制精度和视觉连贯性方面优于现有方法。代码和数据将会发布。项目主页:https://sixiaozheng.github.io/VidCRAFT3/。
🔬 方法详解
问题定义:现有图像到视频生成方法通常独立处理相机运动、物体运动和光照方向的控制,无法实现精确和灵活的联合控制。此外,缺乏高质量的、带有联合标注的数据集,进一步限制了模型性能的提升。现有方法难以在复杂场景下生成具有高度一致性和可控性的视频内容。
核心思路:VidCRAFT3的核心思路是将图像到视频的生成过程解耦为三个可控的模块:相机运动控制、物体运动控制和光照方向控制。通过分别设计专门的网络结构和训练策略,实现对这三个方面的精确控制,并通过统一的框架进行集成,从而实现联合控制。这种解耦的设计使得模型可以更好地理解和处理不同类型的控制信号,并生成更逼真和可控的视频。
技术框架:VidCRAFT3的整体框架包含三个主要模块:Image2Cloud、ObjMotionNet和空间三重注意力Transformer。Image2Cloud模块从参考图像重建3D点云,用于精确的相机运动控制。ObjMotionNet模块将稀疏物体轨迹编码为多尺度光流特征,用于引导物体运动。空间三重注意力Transformer模块通过并行交叉注意力机制集成光照方向嵌入,用于控制光照效果。整个框架采用三阶段训练策略,首先分别训练各个模块,然后进行联合训练,最后进行微调。
关键创新:VidCRAFT3的关键创新在于其统一且灵活的I2V框架,该框架支持对相机运动、物体运动和光照方向的独立和联合控制。此外,该论文还提出了空间三重注意力Transformer,用于有效地集成光照方向信息。另一个重要的创新是VLD数据集,该数据集包含带有逐帧光照方向标签的合成静态场景视频片段,为相关研究提供了宝贵的数据资源。
关键设计:Image2Cloud模块使用深度估计网络和点云重建算法,从参考图像中生成3D点云。ObjMotionNet模块使用光流估计网络和多尺度特征提取网络,将稀疏物体轨迹编码为多尺度光流特征。空间三重注意力Transformer模块使用三个并行的交叉注意力层,分别处理图像特征、相机运动特征和光照方向嵌入。损失函数包括重建损失、光流损失和对抗损失等,用于保证生成视频的质量和一致性。三阶段训练策略包括预训练、联合训练和微调,用于提高模型的鲁棒性和泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VidCRAFT3在控制精度和视觉连贯性方面显著优于现有方法。通过定量评估和定性比较,证明了VidCRAFT3在相机运动控制、物体运动控制和光照方向控制方面的优越性。此外,VLD数据集的贡献也为相关研究提供了重要的数据支持,促进了图像到视频生成领域的发展。
🎯 应用场景
VidCRAFT3具有广泛的应用前景,包括电影制作、游戏开发、虚拟现实、广告设计等领域。它可以帮助用户快速生成高质量、可控的视频内容,降低视频制作的成本和门槛。例如,用户可以通过指定相机运动轨迹、物体运动路径和光照方向,快速生成所需的视频片段,从而提高创作效率和灵活性。未来,该技术有望应用于更广泛的领域,例如智能监控、自动驾驶等。
📄 摘要(原文)
Controllable image-to-video (I2V) generation transforms a reference image into a coherent video guided by user-specified control signals. In content creation workflows, precise and simultaneous control over camera motion, object motion, and lighting direction enhances both accuracy and flexibility. However, existing approaches typically treat these control signals separately, largely due to the scarcity of datasets with high-quality joint annotations and mismatched control spaces across modalities. We present VidCRAFT3, a unified and flexible I2V framework that supports both independent and joint control over camera motion, object motion, and lighting direction by integrating three core components. Image2Cloud reconstructs a 3D point cloud from the reference image to enable precise camera motion control. ObjMotionNet encodes sparse object trajectories into multi-scale optical flow features to guide object motion. The Spatial Triple-Attention Transformer integrates lighting direction embeddings via parallel cross-attention. To address the scarcity of jointly annotated data, we curate the VideoLightingDirection (VLD) dataset of synthetic static-scene video clips with per-frame lighting-direction labels, and adopt a three-stage training strategy that enables robust learning without fully joint annotations. Extensive experiments show that VidCRAFT3 outperforms existing methods in control precision and visual coherence. Code and data will be released. Project page: https://sixiaozheng.github.io/VidCRAFT3/.