GRVS: a Generalizable and Recurrent Approach to Monocular Dynamic View Synthesis

📄 arXiv: 2603.29734v1 📥 PDF

作者: Thomas Tanay, Mohammed Brahimi, Michal Nazarczuk, Qingwen Zhang, Sibi Catley-Chandar, Arthur Moreau, Zhensong Zhang, Eduardo Pérez-Pellitero

分类: cs.CV

发布日期: 2026-03-31

备注: CVPR Findings 2026


💡 一句话要点

提出GRVS:一种通用且循环的单目动态视角合成方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景 新视角合成 单目视频 循环神经网络 平面扫描 几何重建 通用模型

📋 核心要点

  1. 现有动态场景新视角合成方法在处理高动态区域时存在困难,且计算资源需求高昂。
  2. GRVS模型通过循环回路实现输入和目标视频的映射,并利用平面扫描解耦相机和场景运动。
  3. 在UCSD和Kubric-4D-dyn数据集上的实验表明,GRVS模型在几何细节重建方面优于现有方法。

📝 摘要(中文)

从动态场景的单目视频中合成新视角仍然是一个具有挑战性的问题。特定场景的方法通常优化具有显式运动先验的4D表示,但在难以利用多视角信息的高度动态区域中会失效。基于扩散的方法将相机控制集成到大型预训练模型中,可以生成视觉上合理的视频,但经常在静态和动态区域中出现几何不一致性。这两种方法都需要大量的计算资源。本文在静态新视角合成的通用模型成功的基础上,将该框架应用于动态输入,并提出了一个具有两个关键组件的新模型:(1)一个循环回路,可以实现输入和目标视频之间的无界和异步映射;(2)高效地利用动态输入上的平面扫描来解耦相机和场景运动,并实现精细的六自由度相机控制。我们在UCSD数据集和Kubric-4D-dyn(一个新的单目动态数据集,具有比现有替代方案更长、更高分辨率和更复杂的场景动态)上训练和评估了我们的模型。我们的模型在重建静态和动态区域的精细几何细节方面,优于四种基于高斯溅射的特定场景方法以及两种基于扩散的方法。

🔬 方法详解

问题定义:现有单目动态视角合成方法面临的挑战包括:1) 在高度动态区域,基于4D表示的方法难以利用多视角信息;2) 基于扩散的方法虽然视觉效果好,但存在几何不一致性;3) 两类方法都需要大量计算资源。这些问题限制了动态场景新视角合成的实际应用。

核心思路:GRVS的核心思路是将静态新视角合成的通用性框架扩展到动态场景,并引入循环机制和平面扫描技术。循环机制用于处理视频的时序依赖性,平面扫描用于解耦相机和场景的运动,从而实现更精确的视角控制。

技术框架:GRVS模型包含两个主要组件:1) 循环回路:用于建立输入和目标视频之间的映射关系,允许异步和无界的视频处理;2) 平面扫描模块:通过在动态输入上进行平面扫描,将相机运动和场景运动解耦,从而实现精细的六自由度相机控制。整个框架通过端到端的方式进行训练。

关键创新:GRVS的关键创新在于将循环机制和平面扫描技术结合,用于单目动态场景的新视角合成。这种结合使得模型能够更好地处理时序信息和运动信息,从而在动态区域实现更准确的几何重建。与现有方法相比,GRVS更具通用性和效率。

关键设计:GRVS的具体技术细节包括:1) 循环回路的具体实现方式,例如使用GRU或LSTM等循环神经网络;2) 平面扫描模块的参数设置,例如平面数量、扫描范围等;3) 损失函数的设计,例如包括重建损失、几何一致性损失等。这些设计细节对模型的性能至关重要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRVS模型在UCSD和Kubric-4D-dyn数据集上进行了评估,实验结果表明,GRVS在重建静态和动态区域的精细几何细节方面,优于四种基于高斯溅射的特定场景方法以及两种基于扩散的方法。这证明了GRVS在单目动态视角合成方面的有效性。

🎯 应用场景

GRVS模型在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以用于生成动态场景的逼真新视角,从而提升用户体验和系统性能。例如,在自动驾驶中,GRVS可以用于合成不同视角的图像,从而提高感知系统的鲁棒性。

📄 摘要(原文)

Synthesizing novel views from monocular videos of dynamic scenes remains a challenging problem. Scene-specific methods that optimize 4D representations with explicit motion priors often break down in highly dynamic regions where multi-view information is hard to exploit. Diffusion-based approaches that integrate camera control into large pre-trained models can produce visually plausible videos but frequently suffer from geometric inconsistencies across both static and dynamic areas. Both families of methods also require substantial computational resources. Building on the success of generalizable models for static novel view synthesis, we adapt the framework to dynamic inputs and propose a new model with two key components: (1) a recurrent loop that enables unbounded and asynchronous mapping between input and target videos and (2) an efficient use of plane sweeps over dynamic inputs to disentangle camera and scene motion, and achieve fine-grained, six-degrees-of-freedom camera controls. We train and evaluate our model on the UCSD dataset and on Kubric-4D-dyn, a new monocular dynamic dataset featuring longer, higher resolution sequences with more complex scene dynamics than existing alternatives. Our model outperforms four Gaussian Splatting-based scene-specific approaches, as well as two diffusion-based approaches in reconstructing fine-grained geometric details across both static and dynamic regions.