RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control

📄 arXiv: 2502.10059v2 📥 PDF

作者: Teng Li, Guangcong Zheng, Rui Jiang, Shuigen Zhan, Tao Wu, Yehao Lu, Yining Lin, Chuanyun Deng, Yepan Xiong, Min Chen, Lin Cheng, Xi Li

分类: cs.CV

发布日期: 2025-02-14 (更新: 2025-07-13)

备注: Accepted by ICCV 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RealCam-I2V:基于单目深度估计和交互式相机控制的真实场景图像到视频生成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像到视频生成 单目深度估计 相机轨迹控制 扩散模型 3D场景重建

📋 核心要点

  1. 现有基于相机轨迹的图像到视频生成方法,在真实场景应用中,用户难以提供精确的相机参数,限制了其可用性。
  2. RealCam-I2V通过单目深度估计重建3D场景,实现相机参数的度量尺度转换,并提供直观的3D场景交互式相机轨迹控制。
  3. RealCam-I2V在RealEstate10K数据集和领域外图像上,显著提升了视频生成的可控性和质量,并支持循环视频生成和帧插值等应用。

📝 摘要(中文)

本文提出了一种名为RealCam-I2V的基于扩散模型的视频生成框架,旨在解决现有相机轨迹引导的图像到视频生成方法在真实场景应用中的可用性问题。该框架集成了单目度量深度估计,在预处理阶段建立3D场景重建。在训练过程中,重建的3D场景能够将相机参数从相对尺度缩放到度量尺度,确保了不同真实图像之间的兼容性和尺度一致性。在推理阶段,RealCam-I2V提供了一个直观的界面,用户可以通过在3D场景中拖动来精确绘制相机轨迹。为了进一步增强精确的相机控制和场景一致性,本文提出了场景约束噪声整形方法,该方法塑造了高层噪声,并允许框架在较低噪声阶段保持动态和连贯的视频生成。RealCam-I2V在RealEstate10K和领域外图像上实现了可控性和视频质量的显著提升。此外,该方法还支持相机控制的循环视频生成和生成式帧插值等应用。

🔬 方法详解

问题定义:现有基于相机轨迹的图像到视频生成方法,需要用户提供精确的相机参数,但在实际应用中,用户往往不具备场景深度和尺度的先验知识,难以准确设置相机参数,导致生成效果不佳或无法使用。因此,如何降低用户对相机参数的设置难度,提升真实场景图像到视频生成的可控性和易用性是本文要解决的问题。

核心思路:本文的核心思路是利用单目深度估计技术,从输入的真实图像中重建3D场景,将相机参数从相对尺度转换为度量尺度,从而实现与真实场景的尺度一致性。同时,提供一个直观的3D场景交互界面,允许用户通过拖拽的方式绘制相机轨迹,降低了用户操作的复杂度。

技术框架:RealCam-I2V的整体框架包含以下几个主要阶段:1) 预处理阶段:使用单目深度估计模型从输入图像中重建3D场景。2) 训练阶段:利用重建的3D场景,将相机参数从相对尺度缩放到度量尺度,并训练一个基于扩散模型的视频生成器。3) 推理阶段:用户在3D场景中绘制相机轨迹,生成器根据相机轨迹和输入图像生成视频。此外,还引入了场景约束噪声整形技术,以增强场景一致性和视频连贯性。

关键创新:RealCam-I2V的关键创新在于:1) 将单目深度估计与视频生成相结合,实现了真实场景图像到视频的生成,解决了现有方法在真实场景应用中的尺度不一致问题。2) 提出了场景约束噪声整形方法,通过在高层噪声中引入场景信息,增强了场景一致性和视频连贯性。3) 提供了一个直观的3D场景交互界面,降低了用户操作的复杂度,提升了用户体验。

关键设计:在预处理阶段,使用了预训练的单目深度估计模型(具体模型未知)来估计场景深度。在训练阶段,损失函数可能包含重建损失、对抗损失等(具体损失函数未知)。场景约束噪声整形的具体实现方式未知,但其核心思想是在噪声中引入场景信息,引导生成过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RealCam-I2V在RealEstate10K数据集和领域外图像上取得了显著的性能提升(具体提升幅度未知,需要参考论文中的实验数据)。通过场景约束噪声整形,视频的场景一致性和连贯性得到了明显改善。用户可以通过直观的3D交互界面轻松控制相机轨迹,生成高质量的视频。

🎯 应用场景

RealCam-I2V具有广泛的应用前景,例如:房地产展示、虚拟旅游、游戏开发、电影制作等。它可以帮助用户轻松地将静态图像转化为动态视频,并实现对相机运动的精确控制,从而创造出更具吸引力和沉浸感的视觉体验。未来,该技术有望应用于更多领域,例如:增强现实、虚拟现实、机器人导航等。

📄 摘要(原文)

Recent advancements in camera-trajectory-guided image-to-video generation offer higher precision and better support for complex camera control compared to text-based approaches. However, they also introduce significant usability challenges, as users often struggle to provide precise camera parameters when working with arbitrary real-world images without knowledge of their depth nor scene scale. To address these real-world application issues, we propose RealCam-I2V, a novel diffusion-based video generation framework that integrates monocular metric depth estimation to establish 3D scene reconstruction in a preprocessing step. During training, the reconstructed 3D scene enables scaling camera parameters from relative to metric scales, ensuring compatibility and scale consistency across diverse real-world images. In inference, RealCam-I2V offers an intuitive interface where users can precisely draw camera trajectories by dragging within the 3D scene. To further enhance precise camera control and scene consistency, we propose scene-constrained noise shaping, which shapes high-level noise and also allows the framework to maintain dynamic and coherent video generation in lower noise stages. RealCam-I2V achieves significant improvements in controllability and video quality on the RealEstate10K and out-of-domain images. We further enables applications like camera-controlled looping video generation and generative frame interpolation. Project page: https://zgctroy.github.io/RealCam-I2V.