MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

📄 arXiv: 2507.10065v1 📥 PDF

作者: Chenguo Lin, Yuchen Lin, Panwang Pan, Yifan Yu, Honglei Yan, Katerina Fragkiadaki, Yadong Mu

分类: cs.CV

发布日期: 2025-07-14

备注: Project page: https://chenguolin.github.io/projects/MoVieS


💡 一句话要点

MoVieS:单目视频秒级生成运动感知4D动态新视角

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态新视角合成 4D建模 高斯基元 运动估计 单目视频

📋 核心要点

  1. 现有方法难以统一建模动态场景的外观、几何和运动,限制了动态新视角合成的性能和泛化能力。
  2. MoVieS通过显式监督高斯基元的时变运动,统一建模外观、几何和运动,实现视角合成、重建和3D点跟踪。
  3. 实验表明,MoVieS在多个任务上实现了有竞争力的性能,同时提供了数量级的速度提升,并支持零样本应用。

📝 摘要(中文)

MoVieS是一种新颖的前馈模型,它可以在一秒钟内从单目视频合成4D动态新视角。MoVieS使用像素对齐的高斯基元网格来表示动态3D场景,并显式地监督其随时间变化的运动。这首次实现了外观、几何和运动的统一建模,并支持在单个基于学习的框架内进行视角合成、重建和3D点跟踪。通过将新视角合成与动态几何重建相结合,MoVieS能够在大规模多样化数据集上进行训练,并最大限度地减少对特定任务监督的依赖。因此,它自然地支持广泛的零样本应用,例如场景流估计和运动对象分割。大量实验验证了MoVieS在多个任务中的有效性和效率,在提供多个数量级的加速的同时,实现了具有竞争力的性能。

🔬 方法详解

问题定义:现有动态新视角合成方法通常难以同时兼顾建模的准确性和效率,尤其是在处理复杂运动时。它们往往依赖于特定任务的监督,泛化能力有限,并且难以进行统一的建模,例如将外观、几何和运动信息整合在一起。

核心思路:MoVieS的核心思路是使用像素对齐的高斯基元网格来表示动态3D场景,并通过显式地监督这些基元随时间变化的运动来统一建模外观、几何和运动。这种表示方法允许模型学习场景的动态特性,从而实现高质量的动态新视角合成。

技术框架:MoVieS的整体框架是一个前馈网络,它接收单目视频作为输入,并输出动态场景的4D表示。该框架包含以下主要模块:1) 特征提取模块,用于提取视频帧的特征;2) 高斯基元生成模块,用于生成像素对齐的高斯基元网格;3) 运动预测模块,用于预测高斯基元随时间的运动;4) 渲染模块,用于将高斯基元渲染成新的视角。

关键创新:MoVieS的关键创新在于它显式地建模了高斯基元的运动,从而实现了外观、几何和运动的统一建模。与现有方法相比,MoVieS不需要依赖于特定任务的监督,并且可以更好地处理复杂运动。此外,MoVieS还具有很高的效率,可以在一秒钟内生成动态新视角。

关键设计:MoVieS的关键设计包括:1) 使用高斯基元作为场景的表示,这使得模型可以有效地建模场景的几何和外观;2) 显式地监督高斯基元的运动,这使得模型可以学习场景的动态特性;3) 使用前馈网络结构,这使得模型具有很高的效率。损失函数包括渲染损失、运动损失和正则化损失,用于优化模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoVieS在多个动态新视角合成任务上取得了有竞争力的性能,并且速度比现有方法快几个数量级。例如,在合成复杂运动的场景时,MoVieS能够生成高质量的动态新视角,同时保持很高的效率。此外,MoVieS还支持零样本应用,例如场景流估计和运动对象分割,这表明了其良好的泛化能力。

🎯 应用场景

MoVieS具有广泛的应用前景,包括虚拟现实、增强现实、自动驾驶、机器人导航等领域。它可以用于生成逼真的动态场景,从而提高用户体验。此外,MoVieS还可以用于场景理解和运动分析,例如场景流估计和运动对象分割,从而为自动驾驶和机器人导航提供支持。未来,MoVieS可以进一步扩展到处理更复杂的场景和运动,并与其他技术相结合,例如SLAM和三维重建。

📄 摘要(原文)

We present MoVieS, a novel feed-forward model that synthesizes 4D dynamic novel views from monocular videos in one second. MoVieS represents dynamic 3D scenes using pixel-aligned grids of Gaussian primitives, explicitly supervising their time-varying motion. This allows, for the first time, the unified modeling of appearance, geometry and motion, and enables view synthesis, reconstruction and 3D point tracking within a single learning-based framework. By bridging novel view synthesis with dynamic geometry reconstruction, MoVieS enables large-scale training on diverse datasets with minimal dependence on task-specific supervision. As a result, it also naturally supports a wide range of zero-shot applications, such as scene flow estimation and moving object segmentation. Extensive experiments validate the effectiveness and efficiency of MoVieS across multiple tasks, achieving competitive performance while offering several orders of magnitude speedups.