Prior-Enhanced Gaussian Splatting for Dynamic Scene Reconstruction from Casual Video
作者: Meng-Li Shih, Ying-Huan Chen, Yu-Lun Liu, Brian Curless
分类: cs.CV
发布日期: 2025-12-12
💡 一句话要点
提出先验增强的高斯溅射方法,用于从随手拍摄的视频中重建动态场景。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 高斯溅射 单目视频 视频分割 运动轨迹 先验信息 深度估计
📋 核心要点
- 现有单目动态场景重建方法在处理随意拍摄的视频时,常常面临深度估计不准确、几何结构不清晰以及运动不连贯等问题。
- 该论文通过结合视频分割、极线误差图以及骨骼信息,增强了动态高斯溅射的先验信息,从而改善了深度估计和运动轨迹的质量。
- 实验结果表明,该方法在单目动态场景重建方面超越了现有技术,能够生成更清晰的几何结构和更连贯的运动效果。
📝 摘要(中文)
本文提出了一种全自动流程,用于从随意拍摄的单目RGB视频中重建动态场景。该方法没有设计新的场景表示,而是增强了驱动动态高斯溅射的先验信息。视频分割与极线误差图相结合,生成对象级别的掩码,这些掩码能够紧密地跟随细薄的结构。这些掩码用于:(i)引导对象深度损失,从而锐化一致的视频深度;(ii)支持基于骨骼的采样以及掩码引导的重识别,以产生可靠且全面的2D轨迹。另外两个目标将细化的先验嵌入到重建阶段:虚拟视图深度损失消除漂浮物,支架投影损失将运动节点与轨迹联系起来,从而保留精细的几何结构和连贯的运动。最终系统超越了以往的单目动态场景重建方法,并提供了明显更优的渲染效果。
🔬 方法详解
问题定义:论文旨在解决从随意拍摄的单目RGB视频中进行高质量动态场景重建的问题。现有方法在处理此类视频时,由于缺乏精确的深度信息和可靠的运动先验,容易产生深度估计不准确、几何结构模糊以及运动不连贯等问题,尤其是在处理薄结构和复杂运动时表现不佳。
核心思路:论文的核心思路是通过增强动态高斯溅射(Dynamic Gaussian Splatting)的先验信息来改善重建质量。具体来说,利用视频分割和极线几何信息生成精确的对象级掩码,并结合骨骼信息进行运动轨迹的优化,从而为高斯溅射提供更强的几何和运动约束。
技术框架:整体流程包括以下几个主要阶段:1) 视频分割和深度估计:利用视频分割和极线误差图生成对象级别的掩码,并估计初始深度图。2) 运动轨迹优化:结合骨骼信息和掩码引导的重识别,生成可靠的2D运动轨迹。3) 高斯溅射重建:利用增强的先验信息(对象深度损失、虚拟视图深度损失、支架投影损失)驱动动态高斯溅射的优化过程。
关键创新:论文的关键创新在于将视频分割、极线几何和骨骼信息有效地结合起来,生成高质量的对象级掩码和运动轨迹,并将其作为先验信息嵌入到动态高斯溅射的重建过程中。这种方法能够显著改善深度估计的准确性和运动轨迹的连贯性,从而提高重建质量。与现有方法相比,该方法更加注重利用视频自身的几何和运动信息,而不是依赖于复杂的网络结构或大量的训练数据。
关键设计:论文的关键设计包括:1) 对象深度损失:利用对象级掩码引导深度估计,从而锐化一致的视频深度。2) 虚拟视图深度损失:通过渲染虚拟视图并计算深度损失,消除重建结果中的漂浮物。3) 支架投影损失:将运动节点投影到2D运动轨迹上,从而保持精细的几何结构和连贯的运动。此外,论文还采用了基于骨骼的采样和掩码引导的重识别技术,以生成可靠的2D运动轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在单目动态场景重建方面取得了显著的提升。与现有方法相比,该方法能够生成更清晰的几何结构、更连贯的运动效果以及更少的漂浮物。在公开数据集上,该方法在渲染质量和重建精度方面均优于其他方法,实现了state-of-the-art的性能。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以利用该技术从用户随意拍摄的视频中快速生成高质量的3D动态场景,从而为用户提供更加沉浸式的体验。此外,该技术还可以用于运动分析、人体姿态估计等领域,具有广泛的应用前景。
📄 摘要(原文)
We introduce a fully automatic pipeline for dynamic scene reconstruction from casually captured monocular RGB videos. Rather than designing a new scene representation, we enhance the priors that drive Dynamic Gaussian Splatting. Video segmentation combined with epipolar-error maps yields object-level masks that closely follow thin structures; these masks (i) guide an object-depth loss that sharpens the consistent video depth, and (ii) support skeleton-based sampling plus mask-guided re-identification to produce reliable, comprehensive 2-D tracks. Two additional objectives embed the refined priors in the reconstruction stage: a virtual-view depth loss removes floaters, and a scaffold-projection loss ties motion nodes to the tracks, preserving fine geometry and coherent motion. The resulting system surpasses previous monocular dynamic scene reconstruction methods and delivers visibly superior renderings