GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator
作者: Liyuan Zhu, Manjunath Narayana, Michal Stary, Will Hutchcroft, Gordon Wetzstein, Iro Armeni
分类: cs.CV
发布日期: 2026-03-26
备注: CVPR 2026 main paper camera-ready. Project page: http://research.zhuliyuan.net/projects/GaussFusion/
💡 一句话要点
GaussFusion:利用几何信息视频生成器提升野外场景3D重建质量
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 三维重建 视频生成 几何信息 新视角合成
📋 核心要点
- 现有3DGS方法在野外场景重建中易受相机姿态误差、覆盖不全和噪声初始化的影响,产生漂浮、闪烁和模糊等伪影。
- GaussFusion 提出一种几何信息视频生成器,通过对深度、法线等几何信息进行编码和细化,生成时间一致且无伪影的图像。
- GaussFusion 在新视角合成任务上取得了 SOTA 性能,并实现了 21FPS 的实时渲染速度,适用于交互式 3D 应用。
📝 摘要(中文)
GaussFusion 提出了一种新颖的方法,通过几何信息视频生成来改进野外场景中 3D 高斯溅射 (3DGS) 重建效果。GaussFusion 缓解了常见的 3DGS 伪影,包括由相机姿态误差、不完全覆盖和噪声几何初始化引起的漂浮物、闪烁和模糊。与之前仅限于单一重建流程的基于 RGB 的方法不同,我们的方法引入了一个几何信息视频到视频生成器,该生成器可以跨基于优化和前馈方法改进 3DGS 渲染。给定现有的重建,我们渲染一个高斯图元视频缓冲区,编码深度、法线、不透明度和协方差,生成器对其进行细化以生成时间上连贯、无伪影的帧。我们进一步引入了一个伪影合成流程,该流程模拟各种退化模式,确保鲁棒性和泛化性。GaussFusion 在新视角合成基准测试中实现了最先进的性能,并且高效变体以 21 FPS 的实时速度运行,同时保持相似的性能,从而实现交互式 3D 应用。
🔬 方法详解
问题定义:现有的3D高斯溅射(3DGS)方法在野外场景进行三维重建时,容易受到相机位姿估计误差、场景覆盖不完整以及初始几何噪声的影响,从而导致重建结果中出现漂浮物、闪烁以及模糊等视觉伪影,严重影响了重建质量和用户体验。这些问题限制了3DGS在实际场景中的应用。
核心思路:GaussFusion的核心思路是利用一个几何信息引导的视频生成器,对3DGS的渲染结果进行后处理和优化。该生成器以包含深度、法线、不透明度和协方差等几何信息的视频缓冲区作为输入,通过学习的方式去除伪影,并生成时间上连贯、视觉效果更好的图像序列。这种方法将几何信息显式地融入到视频生成过程中,从而能够更有效地解决3DGS重建中存在的各种问题。
技术框架:GaussFusion的整体框架包括以下几个主要步骤:1) 使用现有的3DGS方法进行初始重建;2) 从重建结果中渲染包含深度、法线、不透明度和协方差等信息的几何缓冲区;3) 将几何缓冲区输入到视频生成器中进行处理,生成优化后的图像序列;4) 使用一个伪影合成流程来模拟各种退化模式,从而提高生成器的鲁棒性和泛化能力。视频生成器通常是一个基于深度学习的模型,例如生成对抗网络(GAN)或扩散模型。
关键创新:GaussFusion的关键创新在于引入了几何信息引导的视频生成器。与传统的仅依赖RGB图像的视频生成方法不同,GaussFusion显式地利用了深度、法线等几何信息,从而能够更准确地理解场景结构,并更有效地去除重建伪影。此外,GaussFusion还提出了一个伪影合成流程,用于生成各种类型的重建伪影,从而提高生成器的鲁棒性和泛化能力。
关键设计:GaussFusion的关键设计包括:1) 使用高斯图元视频缓冲区来编码几何信息,这种表示方法能够有效地捕捉场景的几何结构;2) 设计一个能够有效利用几何信息的视频生成器,例如使用条件GAN或扩散模型,并将几何信息作为条件输入;3) 设计一个能够生成各种类型重建伪影的伪影合成流程,例如模拟相机位姿误差、场景覆盖不完整以及初始几何噪声等。损失函数通常包括重建损失、对抗损失以及时间一致性损失等。
📊 实验亮点
GaussFusion 在新视角合成基准测试中取得了最先进的性能,显著优于现有的 3DGS 方法。实验结果表明,GaussFusion 能够有效地去除重建伪影,并生成时间上连贯、视觉效果更好的图像序列。此外,GaussFusion 的高效变体能够以 21 FPS 的实时速度运行,同时保持相似的性能,使其能够应用于交互式三维应用。
🎯 应用场景
GaussFusion 在三维重建领域具有广泛的应用前景,可用于城市建模、虚拟现实、增强现实、游戏开发等领域。通过提升三维重建的质量和效率,GaussFusion 可以为用户提供更逼真、更沉浸式的体验。此外,GaussFusion 的实时渲染能力使其能够应用于交互式三维应用,例如虚拟漫游、远程协作等。未来,GaussFusion 有望成为三维重建领域的重要技术。
📄 摘要(原文)
We present GaussFusion, a novel approach for improving 3D Gaussian splatting (3DGS) reconstructions in the wild through geometry-informed video generation. GaussFusion mitigates common 3DGS artifacts, including floaters, flickering, and blur caused by camera pose errors, incomplete coverage, and noisy geometry initialization. Unlike prior RGB-based approaches limited to a single reconstruction pipeline, our method introduces a geometry-informed video-to-video generator that refines 3DGS renderings across both optimization-based and feed-forward methods. Given an existing reconstruction, we render a Gaussian primitive video buffer encoding depth, normals, opacity, and covariance, which the generator refines to produce temporally coherent, artifact-free frames. We further introduce an artifact synthesis pipeline that simulates diverse degradation patterns, ensuring robustness and generalization. GaussFusion achieves state-of-the-art performance on novel-view synthesis benchmarks, and an efficient variant runs in real time at 21 FPS while maintaining similar performance, enabling interactive 3D applications.