ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
作者: Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung, Jong Chul Ye
分类: cs.CV
发布日期: 2025-11-25
备注: Project page: https://byeongjun-park.github.io/ReDirector/
💡 一句话要点
ReDirector:利用旋转相机编码生成任意长度的视频重拍
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱七:动作重定向 (Motion Retargeting)
关键词: 视频重拍 相机控制 旋转位置编码 动态场景 多视角学习
📋 核心要点
- 现有方法在动态视频重拍生成中,难以处理不同相机轨迹和视频长度的变化,导致泛化能力不足。
- ReDirector通过引入旋转相机编码(RoCE),将相机条件融入RoPE中,从而更好地建模多视角关系。
- 实验结果表明,ReDirector在相机可控性、几何一致性和视频质量方面均优于现有方法,尤其是在处理超出分布的相机轨迹时。
📝 摘要(中文)
我们提出了ReDirector,一种新颖的相机控制视频重拍生成方法,用于动态捕获的可变长度视频。特别地,我们通过对齐输入视频和目标重拍的时空位置,纠正了先前工作中对RoPE的常见误用。此外,我们引入了旋转相机编码(RoCE),这是一种相机条件下的RoPE相位偏移,用于捕获和整合输入和目标视频内部和之间的多视角关系。通过将相机条件集成到RoPE中,我们的方法可以推广到超出分布的相机轨迹和视频长度,从而提高动态对象定位和静态背景的保留。大量的实验进一步证明了在各种轨迹和长度上,相机可控性、几何一致性和视频质量的显著提高。
🔬 方法详解
问题定义:现有视频重拍生成方法难以处理动态场景中相机轨迹和视频长度的变化,尤其是在相机轨迹超出训练分布时,容易出现动态对象定位不准确和静态背景扭曲等问题。这些问题限制了视频重拍生成的泛化能力和实用性。
核心思路:ReDirector的核心思路是将相机运动信息融入到旋转位置编码(RoPE)中,从而更好地建模输入视频和目标重拍之间的时空对应关系。通过引入相机条件下的RoPE相位偏移,ReDirector能够捕获和整合多视角信息,从而提高动态对象定位的准确性和静态背景的稳定性。
技术框架:ReDirector的整体框架包括以下几个主要模块:1) 输入视频编码器:用于提取输入视频的特征表示。2) 旋转相机编码器(RoCE):用于将相机运动信息编码为RoPE的相位偏移。3) 解码器:用于根据编码后的特征和相机信息生成目标重拍视频。整个流程首先对输入视频进行编码,然后利用RoCE将相机信息融入编码特征中,最后通过解码器生成目标视频。
关键创新:ReDirector的关键创新在于引入了旋转相机编码(RoCE),这是一种相机条件下的RoPE相位偏移。RoCE能够将相机运动信息有效地融入到RoPE中,从而更好地建模多视角关系。与现有方法相比,RoCE能够更好地处理超出分布的相机轨迹和视频长度,从而提高视频重拍生成的泛化能力。
关键设计:RoCE的设计关键在于如何将相机运动信息转化为RoPE的相位偏移。具体而言,RoCE利用相机的位置和旋转信息来计算相位偏移量,并将该偏移量添加到RoPE的相位中。此外,ReDirector还采用了多种损失函数来优化模型,包括重构损失、感知损失和对抗损失等。这些损失函数共同作用,以提高视频重拍生成的质量和一致性。
📊 实验亮点
实验结果表明,ReDirector在相机可控性、几何一致性和视频质量方面均优于现有方法。例如,在处理超出分布的相机轨迹时,ReDirector能够显著提高动态对象定位的准确性和静态背景的稳定性。定量评估结果显示,ReDirector在PSNR和SSIM等指标上均取得了显著提升,证明了其优越的性能。
🎯 应用场景
ReDirector具有广泛的应用前景,例如虚拟现实、增强现实、电影制作和游戏开发等领域。它可以用于生成各种动态场景下的视频重拍,例如虚拟漫游、特效制作和游戏过场动画等。通过ReDirector,用户可以更加灵活地控制视频的拍摄角度和长度,从而创造出更加丰富和逼真的视觉体验。
📄 摘要(原文)
We present ReDirector, a novel camera-controlled video retake generation method for dynamically captured variable-length videos. In particular, we rectify a common misuse of RoPE in previous works by aligning the spatiotemporal positions of the input video and the target retake. Moreover, we introduce Rotary Camera Encoding (RoCE), a camera-conditioned RoPE phase shift that captures and integrates multi-view relationships within and across the input and target videos. By integrating camera conditions into RoPE, our method generalizes to out-of-distribution camera trajectories and video lengths, yielding improved dynamic object localization and static background preservation. Extensive experiments further demonstrate significant improvements in camera controllability, geometric consistency, and video quality across various trajectories and lengths.