Prior-Enhanced Gaussian Splatting for Dynamic Scene Reconstruction from Casual Video

作者: Meng-Li Shih, Ying-Huan Chen, Yu-Lun Liu, Brian Curless

分类: cs.CV

发布日期: 2025-12-12

💡 一句话要点

提出先验增强的高斯溅射方法，用于从随手拍摄的视频中重建动态场景。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 高斯溅射 单目视频 视频分割 运动轨迹 先验信息 深度估计

📋 核心要点

现有单目动态场景重建方法在处理随意拍摄的视频时，常常面临深度估计不准确、几何结构不清晰以及运动不连贯等问题。
该论文通过结合视频分割、极线误差图以及骨骼信息，增强了动态高斯溅射的先验信息，从而改善了深度估计和运动轨迹的质量。
实验结果表明，该方法在单目动态场景重建方面超越了现有技术，能够生成更清晰的几何结构和更连贯的运动效果。

📝 摘要（中文）

本文提出了一种全自动流程，用于从随意拍摄的单目RGB视频中重建动态场景。该方法没有设计新的场景表示，而是增强了驱动动态高斯溅射的先验信息。视频分割与极线误差图相结合，生成对象级别的掩码，这些掩码能够紧密地跟随细薄的结构。这些掩码用于：(i)引导对象深度损失，从而锐化一致的视频深度；(ii)支持基于骨骼的采样以及掩码引导的重识别，以产生可靠且全面的2D轨迹。另外两个目标将细化的先验嵌入到重建阶段：虚拟视图深度损失消除漂浮物，支架投影损失将运动节点与轨迹联系起来，从而保留精细的几何结构和连贯的运动。最终系统超越了以往的单目动态场景重建方法，并提供了明显更优的渲染效果。

🔬 方法详解

问题定义：论文旨在解决从随意拍摄的单目RGB视频中进行高质量动态场景重建的问题。现有方法在处理此类视频时，由于缺乏精确的深度信息和可靠的运动先验，容易产生深度估计不准确、几何结构模糊以及运动不连贯等问题，尤其是在处理薄结构和复杂运动时表现不佳。

核心思路：论文的核心思路是通过增强动态高斯溅射（Dynamic Gaussian Splatting）的先验信息来改善重建质量。具体来说，利用视频分割和极线几何信息生成精确的对象级掩码，并结合骨骼信息进行运动轨迹的优化，从而为高斯溅射提供更强的几何和运动约束。

技术框架：整体流程包括以下几个主要阶段：1) 视频分割和深度估计：利用视频分割和极线误差图生成对象级别的掩码，并估计初始深度图。2) 运动轨迹优化：结合骨骼信息和掩码引导的重识别，生成可靠的2D运动轨迹。3) 高斯溅射重建：利用增强的先验信息（对象深度损失、虚拟视图深度损失、支架投影损失）驱动动态高斯溅射的优化过程。

关键创新：论文的关键创新在于将视频分割、极线几何和骨骼信息有效地结合起来，生成高质量的对象级掩码和运动轨迹，并将其作为先验信息嵌入到动态高斯溅射的重建过程中。这种方法能够显著改善深度估计的准确性和运动轨迹的连贯性，从而提高重建质量。与现有方法相比，该方法更加注重利用视频自身的几何和运动信息，而不是依赖于复杂的网络结构或大量的训练数据。

关键设计：论文的关键设计包括：1) 对象深度损失：利用对象级掩码引导深度估计，从而锐化一致的视频深度。2) 虚拟视图深度损失：通过渲染虚拟视图并计算深度损失，消除重建结果中的漂浮物。3) 支架投影损失：将运动节点投影到2D运动轨迹上，从而保持精细的几何结构和连贯的运动。此外，论文还采用了基于骨骼的采样和掩码引导的重识别技术，以生成可靠的2D运动轨迹。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在单目动态场景重建方面取得了显著的提升。与现有方法相比，该方法能够生成更清晰的几何结构、更连贯的运动效果以及更少的漂浮物。在公开数据集上，该方法在渲染质量和重建精度方面均优于其他方法，实现了state-of-the-art的性能。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如，可以利用该技术从用户随意拍摄的视频中快速生成高质量的3D动态场景，从而为用户提供更加沉浸式的体验。此外，该技术还可以用于运动分析、人体姿态估计等领域，具有广泛的应用前景。

📄 摘要（原文）

We introduce a fully automatic pipeline for dynamic scene reconstruction from casually captured monocular RGB videos. Rather than designing a new scene representation, we enhance the priors that drive Dynamic Gaussian Splatting. Video segmentation combined with epipolar-error maps yields object-level masks that closely follow thin structures; these masks (i) guide an object-depth loss that sharpens the consistent video depth, and (ii) support skeleton-based sampling plus mask-guided re-identification to produce reliable, comprehensive 2-D tracks. Two additional objectives embed the refined priors in the reconstruction stage: a virtual-view depth loss removes floaters, and a scaffold-projection loss ties motion nodes to the tracks, preserving fine geometry and coherent motion. The resulting system surpasses previous monocular dynamic scene reconstruction methods and delivers visibly superior renderings

Prior-Enhanced Gaussian Splatting for Dynamic Scene Reconstruction from Casual Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理