Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting
作者: Avinash Paliwal, Adithya Iyer, Shivin Yadav, Muhammad Ali Afridi, Midhun Harikumar
分类: cs.CV
发布日期: 2026-04-23 (更新: 2026-04-24)
备注: CVPRW 2026, Project page: https://adithyaiyer1999.github.io/reshoot-anything/, Code: https://github.com/morphicfilms/video-to-video
💡 一句话要点
提出Reshoot-Anything,一种自监督模型,用于在真实场景中进行视频重拍摄。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频重拍摄 自监督学习 新视角合成 扩散Transformer 4D时空结构
📋 核心要点
- 现有方法缺乏足够的配对多视角数据,难以精确控制动态视频的重拍摄。
- 通过自监督学习,从单目视频中提取伪多视角训练数据,学习4D时空结构。
- 利用4D点云导出的锚点,扩散Transformer实现了时间一致性、相机控制和新视角合成。
📝 摘要(中文)
针对非刚性场景,动态视频重拍摄的精确相机控制受到配对多视角数据严重稀缺的限制。为了克服这一限制,我们提出了一个高度可扩展的自监督框架,能够利用互联网规模的单目视频。我们的核心贡献是生成伪多视角训练三元组,包括源视频、几何锚点和目标视频。我们通过从单个输入视频中提取不同的平滑随机游走裁剪轨迹来实现这一点,分别作为源视图和目标视图。锚点通过使用密集跟踪场正向扭曲源的第一帧来合成生成,有效地模拟了推理时预期的扭曲点云输入。由于我们独立的裁剪策略引入了空间错位和人为遮挡,模型不能简单地复制当前源帧的信息。相反,它被迫通过主动路由和重新投影来自源视频的不同时间和视点上的缺失高保真纹理来隐式地学习4D时空结构,从而重建目标。在推理时,我们经过最小限度调整的扩散Transformer利用从4D点云导出的锚点,在复杂的动态场景上实现最先进的时间一致性、鲁棒的相机控制和高保真新视角合成。
🔬 方法详解
问题定义:现有动态视频重拍摄方法面临的最大痛点是缺乏足够的配对多视角训练数据,尤其是在非刚性场景中。这使得模型难以学习精确的相机控制和生成高质量的新视角图像。现有方法通常依赖于人工标注或合成数据,成本高昂且泛化能力有限。
核心思路:Reshoot-Anything的核心思路是利用自监督学习,从大量的单目视频中自动生成伪多视角训练数据。通过巧妙地设计数据生成流程和训练目标,模型可以学习到视频中的4D时空结构,从而实现高质量的视频重拍摄。这种方法避免了对大量配对数据的依赖,大大提高了模型的可扩展性和泛化能力。
技术框架:Reshoot-Anything的整体框架包括以下几个主要模块:1) 伪多视角数据生成模块:从单目视频中提取不同的平滑随机游走裁剪轨迹作为源视图和目标视图,并合成几何锚点。2) 扩散Transformer模型:利用4D点云导出的锚点作为输入,生成目标视频帧。3) 自监督训练模块:通过最小化源视频和生成的目标视频之间的差异,训练扩散Transformer模型。
关键创新:Reshoot-Anything的关键创新在于其伪多视角数据生成策略。通过独立的裁剪策略,引入了空间错位和人为遮挡,迫使模型学习4D时空结构,而不是简单地复制信息。此外,利用扩散Transformer模型,可以有效地处理复杂的动态场景,并生成高保真、时间一致的新视角图像。
关键设计:在数据生成方面,平滑随机游走裁剪轨迹的设计保证了源视图和目标视图之间的平滑过渡。几何锚点的合成利用了密集跟踪场,模拟了推理时预期的扭曲点云输入。在模型结构方面,扩散Transformer模型采用了注意力机制,可以有效地捕捉视频中的时空依赖关系。损失函数的设计旨在最小化源视频和生成的目标视频之间的差异,并鼓励模型生成时间一致的视频。
🖼️ 关键图片
📊 实验亮点
Reshoot-Anything在复杂的动态场景上实现了最先进的时间一致性、鲁棒的相机控制和高保真新视角合成。通过与现有方法进行对比,Reshoot-Anything在多个指标上都取得了显著的提升。具体的性能数据和对比基线在论文中进行了详细的展示,证明了该方法的有效性和优越性。
🎯 应用场景
Reshoot-Anything具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、电影制作、游戏开发等领域。它可以用于生成高质量的虚拟场景、创建逼真的特效、以及实现交互式的视频体验。该技术还可以应用于机器人导航、自动驾驶等领域,提高机器对环境的感知和理解能力。未来,该研究有望推动视频内容创作和人机交互方式的变革。
📄 摘要(原文)
Precise camera control for reshooting dynamic videos is bottlenecked by the severe scarcity of paired multi-view data for non-rigid scenes. We overcome this limitation with a highly scalable self-supervised framework capable of leveraging internet-scale monocular videos. Our core contribution is the generation of pseudo multi-view training triplets, consisting of a source video, a geometric anchor, and a target video. We achieve this by extracting distinct smooth random-walk crop trajectories from a single input video to serve as the source and target views. The anchor is synthetically generated by forward-warping the first frame of the source with a dense tracking field, which effectively simulates the distorted point-cloud inputs expected at inference. Because our independent cropping strategy introduces spatial misalignment and artificial occlusions, the model cannot simply copy information from the current source frame. Instead, it is forced to implicitly learn 4D spatiotemporal structures by actively routing and re-projecting missing high-fidelity textures across distinct times and viewpoints from the source video to reconstruct the target. At inference, our minimally adapted diffusion transformer utilizes a 4D point-cloud derived anchor to achieve state-of-the-art temporal consistency, robust camera control, and high-fidelity novel view synthesis on complex dynamic scenes.