GA-GS: Generation-Assisted Gaussian Splatting for Static Scene Reconstruction

📄 arXiv: 2604.04331 📥 PDF

作者: Yedong Shen, Shiqi Zhang, Sha Zhang, Yifan Duan, Xinran Zhang, Wenhao Yu, Lu Zhang, Jiajun Deng, Yanyong Zhang

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出GA-GS,利用生成模型辅助高斯溅射重建动态场景中的静态背景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 静态场景重建 高斯溅射 生成模型 扩散模型 运动分割 图像修复 遮挡处理

📋 核心要点

  1. 现有方法依赖背景进行静态场景重建,无法恢复被动态物体遮挡的区域。
  2. GA-GS利用运动感知分割和扩散模型修复遮挡区域,并引入真实性标量平衡生成内容和真实背景。
  3. 在DAVIS和自建数据集上的实验表明,GA-GS在静态场景重建方面优于现有技术,尤其是在遮挡场景中。

📝 摘要(中文)

本文提出了一种名为GA-GS的生成辅助高斯溅射方法,用于从包含动态物体的单目视频中重建静态3D场景。该方法利用生成模型辅助重建被遮挡区域,首先使用运动感知模块分割并移除动态区域,然后使用扩散模型对遮挡区域进行修复,提供伪真值监督。为了平衡真实背景和生成区域的贡献,为每个高斯基元引入可学习的真实性标量,动态调节溅射过程中的不透明度,实现真实性感知渲染和监督。此外,构建了一个名为Trajectory-Match的数据集,用于定量评估遮挡区域的重建效果。在DAVIS和自建数据集上的大量实验表明,GA-GS在静态场景重建方面取得了最先进的性能,尤其是在大规模、持续遮挡等具有挑战性的场景中。

🔬 方法详解

问题定义:论文旨在解决从包含动态物体的单目视频中重建静态3D场景的问题。现有方法主要依赖于可见的背景信息,对于被动态物体长期遮挡的区域,重建效果较差甚至无法重建。这限制了在虚拟现实、自动驾驶等领域的应用。

核心思路:论文的核心思路是利用生成模型来“脑补”被遮挡的区域,从而辅助静态场景的重建。具体来说,首先通过运动感知模块分割并移除动态物体,然后利用扩散模型对遮挡区域进行图像修复,生成看似真实的背景内容,并将其作为伪真值来指导重建过程。

技术框架:GA-GS的整体框架包含以下几个主要模块:1) 运动感知分割模块,用于分割视频中的动态物体;2) 扩散模型,用于修复被动态物体遮挡的区域,生成伪真值;3) 高斯溅射渲染模块,用于将3D高斯基元渲染成图像;4) 真实性感知融合模块,通过可学习的真实性标量,动态调节高斯基元的不透明度,平衡真实背景和生成区域的贡献。

关键创新:该方法最重要的创新点在于将生成模型引入到静态场景重建中,利用生成模型来填补被遮挡的区域,从而克服了传统方法依赖可见背景的局限性。此外,提出的真实性感知融合机制,能够有效地平衡生成内容和真实背景的贡献,避免生成内容对重建结果产生负面影响。

关键设计:在运动感知分割模块中,可以使用现有的运动分割算法。扩散模型可以使用预训练的图像修复模型,并针对特定场景进行微调。真实性标量是一个介于0和1之间的可学习参数,用于控制高斯基元的不透明度。损失函数包括重建损失、深度损失和正则化项,用于约束高斯基元的形状和位置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GA-GS在DAVIS和自建数据集Trajectory-Match上进行了评估,实验结果表明,GA-GS在静态场景重建方面取得了state-of-the-art的性能,尤其是在大规模、持续遮挡等具有挑战性的场景中。在Trajectory-Match数据集上,GA-GS在遮挡区域的重建精度方面显著优于其他方法。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、自动驾驶等领域。例如,在自动驾驶中,可以利用该方法重建静态道路环境,即使车辆前方存在其他车辆或行人遮挡,也能准确地感知周围环境。在虚拟现实中,可以用于重建虚拟场景,提高用户体验。

📄 摘要(原文)

Reconstructing static 3D scene from monocular video with dynamic objects is important for numerous applications such as virtual reality and autonomous driving. Current approaches typically rely on background for static scene reconstruction, limiting the ability to recover regions occluded by dynamic objects. In this paper, we propose GA-GS, a Generation-Assisted Gaussian Splatting method for Static Scene Reconstruction. The key innovation of our work lies in leveraging generation to assist in reconstructing occluded regions. We employ a motion-aware module to segment and remove dynamic regions, and thenuse a diffusion model to inpaint the occluded areas, providing pseudo-ground-truth supervision. To balance contributions from real background and generated region, we introduce a learnable authenticity scalar for each Gaussian primitive, which dynamically modulates opacity during splatting for authenticity-aware rendering and supervision. Since no existing dataset provides ground-truth static scene of video with dynamic objects, we construct a dataset named Trajectory-Match, using a fixed-path robot to record each scene with/without dynamic objects, enabling quantitative evaluation in reconstruction of occluded regions. Extensive experiments on both the DAVIS and our dataset show that GA-GS achieves state-of-the-art performance in static scene reconstruction, especially in challenging scenarios with large-scale, persistent occlusions.