PostCam: Camera-Controllable Novel-View Video Generation with Query-Shared Cross-Attention

📄 arXiv: 2511.17185v1 📥 PDF

作者: Yipeng Chen, Zhichao Ye, Zhenzhou Fang, Xinyu Chen, Xiaoyu Zhang, Jialing Liu, Nan Wang, Haomin Liu, Guofeng Zhang

分类: cs.CV

发布日期: 2025-11-21

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PostCam:基于查询共享交叉注意力的相机可控新视角视频生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 新视角视频生成 相机控制 交叉注意力 视频重捕获 动态场景 运动估计 两阶段训练

📋 核心要点

  1. 现有视频重捕获方法在相机运动注入策略上存在不足,限制了相机控制的精度,并且难以保留原始视频的细节。
  2. PostCam通过查询共享交叉注意力模块,将相机姿态和2D视频帧融合到统一的特征空间,提取运动线索,从而实现更精确的运动控制。
  3. 实验结果表明,PostCam在相机控制精度和视角一致性方面优于现有方法20%以上,并实现了更高的视频生成质量。

📝 摘要(中文)

本文提出了一种名为PostCam的新视角视频生成框架,该框架支持动态场景中相机轨迹的后捕获编辑。我们发现现有的视频重捕获方法存在次优的相机运动注入策略;这种次优设计不仅限制了相机控制精度,还导致生成的视频无法保留源视频中的精细视觉细节。为了实现更准确和灵活的运动操作,PostCam引入了一个查询共享交叉注意力模块。它集成了两种不同的控制信号:6自由度相机姿态和2D渲染视频帧。通过将它们融合到共享特征空间中的统一表示中,我们的模型可以提取潜在的运动线索,从而提高控制精度和生成质量。此外,我们采用了一种两阶段训练策略:模型首先从姿态输入中学习粗略的相机控制,然后结合视觉信息来细化运动精度并提高视觉保真度。在真实和合成数据集上的实验表明,PostCam在相机控制精度和视角一致性方面优于最先进的方法20%以上,同时实现了最高的视频生成质量。我们的项目网页公开于:https://cccqaq.github.io/PostCam.github.io/

🔬 方法详解

问题定义:论文旨在解决动态场景下,如何实现相机轨迹可控的新视角视频生成问题。现有方法在相机运动注入方面存在不足,导致控制精度低,且生成的视频在视觉细节上有所损失。这些方法难以充分利用相机姿态信息和原始视频帧信息,导致生成质量受限。

核心思路:论文的核心思路是利用查询共享交叉注意力机制,将相机姿态信息和2D视频帧信息融合到一个统一的特征空间中。通过这种方式,模型可以更好地理解场景的运动信息,从而实现更精确的相机控制和更高质量的视频生成。这种设计允许模型同时考虑几何信息和视觉信息,从而提升生成效果。

技术框架:PostCam采用两阶段训练策略。第一阶段,模型从相机姿态输入中学习粗略的相机控制。第二阶段,模型结合视觉信息,进一步细化运动精度,并提高视觉保真度。该框架的核心模块是查询共享交叉注意力模块,它接收相机姿态和2D视频帧作为输入,输出融合后的特征表示。然后,这些特征被用于生成新视角的视频帧。

关键创新:PostCam的关键创新在于查询共享交叉注意力模块。与现有方法不同,该模块能够有效地融合相机姿态和视频帧信息,从而提取更丰富的运动线索。这种融合方式使得模型能够更好地理解场景的动态变化,并生成更逼真的新视角视频。此外,两阶段训练策略也有助于提高模型的性能。

关键设计:查询共享交叉注意力模块的具体实现细节未知,但可以推测其利用注意力机制来学习相机姿态和视频帧之间的关系。损失函数的设计可能包括视角一致性损失、图像质量损失等,以保证生成视频的质量和视角一致性。两阶段训练的具体参数设置未知,但可能包括学习率、batch size等超参数的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PostCam在真实和合成数据集上的实验结果表明,其在相机控制精度和视角一致性方面优于现有最先进的方法20%以上。这意味着PostCam能够更精确地控制相机运动,并生成更符合物理规律的新视角视频。同时,PostCam也实现了最高的视频生成质量,表明其生成的视频在视觉效果上更逼真。

🎯 应用场景

PostCam技术可应用于电影制作、游戏开发、虚拟现实/增强现实等领域。例如,电影制作人员可以使用该技术在后期制作中调整相机轨迹,创造出更具视觉冲击力的镜头。游戏开发者可以利用该技术生成不同视角的动态场景,提升游戏体验。在VR/AR领域,该技术可以用于生成更逼真的虚拟环境,增强用户的沉浸感。

📄 摘要(原文)

We propose PostCam, a framework for novel-view video generation that enables post-capture editing of camera trajectories in dynamic scenes. We find that existing video recapture methods suffer from suboptimal camera motion injection strategies; such suboptimal designs not only limit camera control precision but also result in generated videos that fail to preserve fine visual details from the source video. To achieve more accurate and flexible motion manipulation, PostCam introduces a query-shared cross-attention module. It integrates two distinct forms of control signals: the 6-DoF camera poses and the 2D rendered video frames. By fusing them into a unified representation within a shared feature space, our model can extract underlying motion cues, which enhances both control precision and generation quality. Furthermore, we adopt a two-stage training strategy: the model first learns coarse camera control from pose inputs, and then incorporates visual information to refine motion accuracy and enhance visual fidelity. Experiments on both real-world and synthetic datasets demonstrate that PostCam outperforms state-of-the-art methods by over 20% in camera control precision and view consistency, while achieving the highest video generation quality. Our project webpage is publicly available at: https://cccqaq.github.io/PostCam.github.io/