CameraNoise: Enabling Faithful Camera Control in Video Diffusion through Geometry-Flow-Guided Noise Warping

📄 arXiv: 2605.30774v1 📥 PDF

作者: Haoyu Zhao, Jiaxi Gu, Haoran Chen, Qingping Zheng, Yeying Jin, Hongyi Yang, Junqi Cheng, Yuang Zhang, Zenghui Lu, Huan Yu, Jie Jiang, Peng Shu, Zuxuan Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2026-05-29

备注: 28 pages, 16 figures

期刊: Proceedings of the Forty-third International Conference on Machine Learning (ICML), 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CameraNoise,通过几何流引导的噪声扭曲实现视频扩散中精确的相机控制

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频扩散模型 相机控制 几何一致性 噪声扭曲 运动解耦

📋 核心要点

  1. 现有视频扩散方法在精确控制相机姿态时,难以保证生成视频的几何一致性,导致结构失真。
  2. CameraNoise通过将相机运动信息编码到噪声空间,解耦运动与外观,并利用几何流引导噪声扭曲,保证时间一致性。
  3. 实验表明,CameraNoise在视频质量和相机轨迹保真度上均优于现有方法,生成更稳定、高质量的视频。

📝 摘要(中文)

本文提出了一种名为CameraNoise的流到噪声扭曲方法,旨在解决视频扩散中精确相机姿态控制和保持几何一致性的难题。现有方法直接将数值相机参数注入扩散骨干网络,难以弥合抽象坐标和视觉内容之间的差距,导致结构扭曲。CameraNoise将相机运动编码为时间上连贯的随机表示,直接将相机姿态嵌入噪声空间,从而将运动与场景外观解耦,同时忠实地保留轨迹动态。该方法引入了几何引导的重投影流和噪声扭曲算法,共同保持扩散的Gaussian先验,并确保相机变换下噪声的一致传播。实验结果表明,CameraNoise显著优于现有方法,在视觉质量和轨迹保真度方面均有提升。

🔬 方法详解

问题定义:论文旨在解决视频扩散模型中相机控制不精确,导致生成视频几何结构不一致的问题。现有方法直接将相机参数作为条件输入到扩散模型中,但相机参数与图像像素之间的关系复杂,难以直接建模,导致生成视频出现结构性扭曲,无法精确控制相机运动。

核心思路:论文的核心思路是将相机运动信息编码到噪声空间中,通过对噪声进行扭曲来模拟相机运动。这种方法将相机运动与场景外观解耦,避免了直接建模相机参数与像素之间的复杂关系。同时,通过几何流引导噪声扭曲,保证了噪声在时间上的连贯性,从而生成几何一致的视频。

技术框架:CameraNoise框架主要包含两个关键模块:几何引导的重投影流模块和噪声扭曲模块。首先,几何引导的重投影流模块根据相机运动参数计算图像中每个像素的运动矢量。然后,噪声扭曲模块利用这些运动矢量对噪声进行扭曲,从而将相机运动信息嵌入到噪声空间中。最后,将扭曲后的噪声输入到扩散模型中生成视频。

关键创新:该论文的关键创新在于提出了将相机运动信息嵌入到噪声空间中的方法。与直接将相机参数作为条件输入到扩散模型中不同,CameraNoise通过对噪声进行扭曲来模拟相机运动,从而避免了直接建模相机参数与像素之间的复杂关系。此外,几何引导的重投影流模块保证了噪声在时间上的连贯性,从而生成几何一致的视频。

关键设计:几何引导的重投影流模块利用光流估计网络预测图像中每个像素的运动矢量。噪声扭曲模块使用双线性插值对噪声进行扭曲。损失函数包括重构损失和光流一致性损失,用于训练几何引导的重投影流模块。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CameraNoise在视觉质量和轨迹保真度方面均优于现有方法。具体而言,CameraNoise生成的视频在结构一致性方面有显著提升,相机轨迹更加平滑和准确。定量指标显示,CameraNoise在FID和LPIPS等指标上均取得了更好的结果,表明其生成的视频质量更高。

🎯 应用场景

CameraNoise在视频内容创作、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以帮助用户更精确地控制虚拟相机的运动,从而创作出更具创意和表现力的视频内容。此外,该技术还可以用于增强虚拟现实和游戏体验,例如,通过模拟真实的相机运动来提高沉浸感。

📄 摘要(原文)

Precise camera pose control is critical for video diffusion, yet maintaining geometric consistency remains a challenge. Existing methods that directly inject numerical camera parameters into the diffusion backbone often fail to bridge the gap between abstract coordinates and visual content, leading to structural distortions. To address this issue, we propose CameraNoise, a flow-to-noise warping method that encodes camera motion into a temporally coherent stochastic representation. Unlike conventional conditioning, CameraNoise embeds camera poses directly into the noise space. This decouples motion from scene appearance while faithfully preserving trajectory dynamics. Specifically, we introduce a novel Geometry-guided Reprojection Flow and a noise warping algorithm, which jointly preserve the Gaussian prior of diffusion and ensure consistent noise propagation under camera transformations. By integrating CameraNoise into the diffusion process, our framework delivers stable, high-fidelity videos. Extensive experiments demonstrate that our approach significantly outperforms prior methods in both visual quality and trajectory faithfulness. The project page and code are available at: https://gulucaptain.github.io/CameraNoise/.