Prior-Enhanced Gaussian Splatting for Dynamic Scene Reconstruction from Casual Video

📄 arXiv: 2512.11356v1 📥 PDF

作者: Meng-Li Shih, Ying-Huan Chen, Yu-Lun Liu, Brian Curless

分类: cs.CV

发布日期: 2025-12-12


💡 一句话要点

提出先验增强的高斯溅射方法,用于从日常视频中重建动态场景

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 动态场景重建 高斯溅射 单目视频 先验增强 视频分割 深度估计 运动轨迹

📋 核心要点

  1. 现有单目动态场景重建方法在处理复杂运动和遮挡时,几何细节和运动连贯性不足。
  2. 通过结合视频分割、极线几何和骨骼信息,增强动态高斯溅射的先验知识,从而提升重建质量。
  3. 实验表明,该方法在单目动态场景重建任务上,渲染质量和几何精度均优于现有技术。

📝 摘要(中文)

本文提出了一种全自动流程,用于从随意拍摄的单目RGB视频中重建动态场景。该方法没有设计新的场景表示,而是增强了驱动动态高斯溅射的先验信息。视频分割结合极线误差图产生对象级别的掩码,这些掩码紧密跟随细薄结构;这些掩码(i)引导对象深度损失,从而锐化一致的视频深度,并且(ii)支持基于骨架的采样以及掩码引导的重识别,以产生可靠、全面的2D轨迹。两个额外的目标将细化的先验嵌入到重建阶段:虚拟视图深度损失消除了漂浮物,支架投影损失将运动节点与轨迹联系起来,从而保留了精细的几何形状和连贯的运动。所提出的系统超越了以往的单目动态场景重建方法,并提供了明显更优越的渲染效果。

🔬 方法详解

问题定义:论文旨在解决从单目RGB视频中重建动态场景的问题。现有方法在处理复杂运动、遮挡以及缺乏深度信息的情况下,难以获得高质量的几何结构和连贯的运动估计,导致重建结果存在漂浮物、几何失真等问题。

核心思路:论文的核心在于通过增强动态高斯溅射(Dynamic Gaussian Splatting)的先验信息来改善重建效果。具体来说,利用视频分割、极线几何约束和骨骼信息来指导深度估计、运动轨迹生成和场景重建,从而提高重建的准确性和鲁棒性。

技术框架:整体流程包括以下几个主要阶段:1) 视频分割和深度估计:利用视频分割和极线误差图生成对象级别的掩码,并结合对象深度损失来优化深度估计。2) 2D轨迹生成:通过骨架引导的采样和掩码引导的重识别,生成可靠的2D运动轨迹。3) 动态高斯溅射重建:将细化的先验信息嵌入到重建阶段,包括虚拟视图深度损失和支架投影损失,以消除漂浮物并保持几何形状和运动的连贯性。

关键创新:论文的关键创新在于将视频分割、极线几何和骨骼信息有效地结合起来,用于增强动态高斯溅射的先验知识。通过对象级别的掩码引导深度估计和运动轨迹生成,以及虚拟视图深度损失和支架投影损失的引入,显著提高了重建的质量和鲁棒性。

关键设计:论文的关键设计包括:1) 对象深度损失:利用对象级别的掩码来锐化一致的视频深度。2) 骨架引导的采样和掩码引导的重识别:用于生成可靠的2D运动轨迹。3) 虚拟视图深度损失:用于消除重建结果中的漂浮物。4) 支架投影损失:用于将运动节点与轨迹联系起来,从而保持几何形状和运动的连贯性。具体的参数设置和损失函数细节在论文中有详细描述,此处不再赘述。

📊 实验亮点

实验结果表明,该方法在单目动态场景重建任务上,相比于现有的方法,能够生成更清晰、更准确的几何结构和更连贯的运动估计。通过定性和定量的比较,证明了该方法在渲染质量和几何精度方面的优越性。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,能够从普通视频中重建高质量的动态3D场景,为用户提供更加沉浸式的体验。此外,该技术还可用于运动分析、人体姿态估计等领域,具有广泛的应用前景。

📄 摘要(原文)

We introduce a fully automatic pipeline for dynamic scene reconstruction from casually captured monocular RGB videos. Rather than designing a new scene representation, we enhance the priors that drive Dynamic Gaussian Splatting. Video segmentation combined with epipolar-error maps yields object-level masks that closely follow thin structures; these masks (i) guide an object-depth loss that sharpens the consistent video depth, and (ii) support skeleton-based sampling plus mask-guided re-identification to produce reliable, comprehensive 2-D tracks. Two additional objectives embed the refined priors in the reconstruction stage: a virtual-view depth loss removes floaters, and a scaffold-projection loss ties motion nodes to the tracks, preserving fine geometry and coherent motion. The resulting system surpasses previous monocular dynamic scene reconstruction methods and delivers visibly superior renderings