Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting

📄 arXiv: 2604.21776v1 📥 PDF

作者: Avinash Paliwal, Adithya Iyer, Shivin Yadav, Muhammad Ali Afridi, Midhun Harikumar

分类: cs.CV

发布日期: 2026-04-23


💡 一句话要点

提出Reshoot-Anything,解决野外视频重拍中多视角数据稀缺问题。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视频重拍 自监督学习 新视角合成 扩散模型 Transformer 时空建模 单目视频

📋 核心要点

  1. 现有方法缺乏非刚性场景多视角配对数据,限制了动态视频重拍的精确相机控制。
  2. 通过自监督学习,从单目视频中提取伪多视角训练三元组,学习4D时空结构。
  3. 实验表明,该方法在时间一致性、相机控制和新视角合成方面达到SOTA水平。

📝 摘要(中文)

针对非刚性场景多视角配对数据严重匮乏导致动态视频精确相机控制受限的问题,本文提出了一种高度可扩展的自监督框架,能够利用互联网规模的单目视频。核心贡献在于生成伪多视角训练三元组,包括源视频、几何锚点和目标视频。通过从单个输入视频中提取不同的平滑随机游走裁剪轨迹作为源视图和目标视图来实现。锚点通过使用密集跟踪场正向扭曲源视频的第一帧来合成生成,有效模拟了推理时所需的扭曲点云输入。由于独立的裁剪策略引入了空间错位和人为遮挡,模型不能简单地复制当前源帧的信息,而是被迫通过主动路由和重新投影来自源视频的不同时间和视点的高保真纹理来隐式地学习4D时空结构以重建目标。在推理时,我们经过最小限度调整的扩散Transformer利用从4D点云导出的锚点,在复杂的动态场景上实现最先进的时间一致性、鲁棒的相机控制和高保真新视角合成。

🔬 方法详解

问题定义:现有动态视频重拍方法严重依赖多视角配对数据,但在实际野外场景中,获取此类数据非常困难,特别是对于非刚性场景。这限制了精确相机控制和高质量新视角合成。现有方法难以有效利用大规模单目视频数据进行训练。

核心思路:论文的核心思路是通过自监督学习,利用大规模单目视频数据生成伪多视角训练数据。具体来说,从单个视频中提取不同的裁剪轨迹作为源视图和目标视图,并合成几何锚点,从而构建训练三元组。这种方法避免了对真实多视角数据的依赖,提高了模型的可扩展性。

技术框架:整体框架包括伪多视角数据生成和模型训练两个阶段。数据生成阶段,从单目视频中提取源视频和目标视频,并通过密集跟踪场生成几何锚点。模型训练阶段,使用扩散Transformer,以几何锚点为条件,将源视频转换为目标视频。该模型学习从源视频中路由和重新投影纹理信息,以重建目标视频。

关键创新:最重要的创新点在于提出了自监督的伪多视角数据生成方法,能够从单目视频中学习多视角关系。此外,利用扩散Transformer进行新视角合成,并结合4D点云锚点,提高了时间一致性和相机控制的鲁棒性。

关键设计:关键设计包括:1) 使用随机游走裁剪轨迹生成源视频和目标视频,引入空间错位和遮挡,迫使模型学习时空结构;2) 使用密集跟踪场生成几何锚点,模拟推理时的输入;3) 使用扩散Transformer作为生成模型,提高生成质量;4) 利用4D点云锚点,增强时间一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在复杂的动态场景上实现了最先进的时间一致性、鲁棒的相机控制和高保真新视角合成。通过与现有方法对比,该方法在时间一致性指标上取得了显著提升,并且能够生成更逼真的新视角图像。具体性能数据未知,但摘要强调了其SOTA地位。

🎯 应用场景

该研究成果可应用于视频编辑、虚拟现实、增强现实等领域。例如,用户可以使用该模型对现有视频进行重拍,改变视角和相机运动,创造更具吸引力的视觉效果。此外,该模型还可以用于生成虚拟场景,为用户提供沉浸式体验。未来,该技术有望在电影制作、游戏开发等领域发挥重要作用。

📄 摘要(原文)

Precise camera control for reshooting dynamic videos is bottlenecked by the severe scarcity of paired multi-view data for non-rigid scenes. We overcome this limitation with a highly scalable self-supervised framework capable of leveraging internet-scale monocular videos. Our core contribution is the generation of pseudo multi-view training triplets, consisting of a source video, a geometric anchor, and a target video. We achieve this by extracting distinct smooth random-walk crop trajectories from a single input video to serve as the source and target views. The anchor is synthetically generated by forward-warping the first frame of the source with a dense tracking field, which effectively simulates the distorted point-cloud inputs expected at inference. Because our independent cropping strategy introduces spatial misalignment and artificial occlusions, the model cannot simply copy information from the current source frame. Instead, it is forced to implicitly learn 4D spatiotemporal structures by actively routing and re-projecting missing high-fidelity textures across distinct times and viewpoints from the source video to reconstruct the target. At inference, our minimally adapted diffusion transformer utilizes a 4D point-cloud derived anchor to achieve state-of-the-art temporal consistency, robust camera control, and high-fidelity novel view synthesis on complex dynamic scenes.