GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator

作者: Liyuan Zhu, Manjunath Narayana, Michal Stary, Will Hutchcroft, Gordon Wetzstein, Iro Armeni

分类: cs.CV

发布日期: 2026-03-26

备注: CVPR 2026 main paper camera-ready. Project page: http://research.zhuliyuan.net/projects/GaussFusion/

💡 一句话要点

GaussFusion：利用几何信息视频生成器提升野外场景3D重建质量

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 三维重建 视频生成 几何信息 新视角合成

📋 核心要点

现有3DGS方法在野外场景重建中易受相机姿态误差、覆盖不全和噪声初始化的影响，产生漂浮、闪烁和模糊等伪影。
GaussFusion 提出一种几何信息视频生成器，通过对深度、法线等几何信息进行编码和细化，生成时间一致且无伪影的图像。
GaussFusion 在新视角合成任务上取得了 SOTA 性能，并实现了 21FPS 的实时渲染速度，适用于交互式 3D 应用。

📝 摘要（中文）

GaussFusion 提出了一种新颖的方法，通过几何信息视频生成来改进野外场景中 3D 高斯溅射 (3DGS) 重建效果。GaussFusion 缓解了常见的 3DGS 伪影，包括由相机姿态误差、不完全覆盖和噪声几何初始化引起的漂浮物、闪烁和模糊。与之前仅限于单一重建流程的基于 RGB 的方法不同，我们的方法引入了一个几何信息视频到视频生成器，该生成器可以跨基于优化和前馈方法改进 3DGS 渲染。给定现有的重建，我们渲染一个高斯图元视频缓冲区，编码深度、法线、不透明度和协方差，生成器对其进行细化以生成时间上连贯、无伪影的帧。我们进一步引入了一个伪影合成流程，该流程模拟各种退化模式，确保鲁棒性和泛化性。GaussFusion 在新视角合成基准测试中实现了最先进的性能，并且高效变体以 21 FPS 的实时速度运行，同时保持相似的性能，从而实现交互式 3D 应用。

🔬 方法详解

问题定义：现有的3D高斯溅射(3DGS)方法在野外场景进行三维重建时，容易受到相机位姿估计误差、场景覆盖不完整以及初始几何噪声的影响，从而导致重建结果中出现漂浮物、闪烁以及模糊等视觉伪影，严重影响了重建质量和用户体验。这些问题限制了3DGS在实际场景中的应用。

核心思路：GaussFusion的核心思路是利用一个几何信息引导的视频生成器，对3DGS的渲染结果进行后处理和优化。该生成器以包含深度、法线、不透明度和协方差等几何信息的视频缓冲区作为输入，通过学习的方式去除伪影，并生成时间上连贯、视觉效果更好的图像序列。这种方法将几何信息显式地融入到视频生成过程中，从而能够更有效地解决3DGS重建中存在的各种问题。

技术框架：GaussFusion的整体框架包括以下几个主要步骤：1) 使用现有的3DGS方法进行初始重建；2) 从重建结果中渲染包含深度、法线、不透明度和协方差等信息的几何缓冲区；3) 将几何缓冲区输入到视频生成器中进行处理，生成优化后的图像序列；4) 使用一个伪影合成流程来模拟各种退化模式，从而提高生成器的鲁棒性和泛化能力。视频生成器通常是一个基于深度学习的模型，例如生成对抗网络(GAN)或扩散模型。

关键创新：GaussFusion的关键创新在于引入了几何信息引导的视频生成器。与传统的仅依赖RGB图像的视频生成方法不同，GaussFusion显式地利用了深度、法线等几何信息，从而能够更准确地理解场景结构，并更有效地去除重建伪影。此外，GaussFusion还提出了一个伪影合成流程，用于生成各种类型的重建伪影，从而提高生成器的鲁棒性和泛化能力。

关键设计：GaussFusion的关键设计包括：1) 使用高斯图元视频缓冲区来编码几何信息，这种表示方法能够有效地捕捉场景的几何结构；2) 设计一个能够有效利用几何信息的视频生成器，例如使用条件GAN或扩散模型，并将几何信息作为条件输入；3) 设计一个能够生成各种类型重建伪影的伪影合成流程，例如模拟相机位姿误差、场景覆盖不完整以及初始几何噪声等。损失函数通常包括重建损失、对抗损失以及时间一致性损失等。

📊 实验亮点

GaussFusion 在新视角合成基准测试中取得了最先进的性能，显著优于现有的 3DGS 方法。实验结果表明，GaussFusion 能够有效地去除重建伪影，并生成时间上连贯、视觉效果更好的图像序列。此外，GaussFusion 的高效变体能够以 21 FPS 的实时速度运行，同时保持相似的性能，使其能够应用于交互式三维应用。

🎯 应用场景

GaussFusion 在三维重建领域具有广泛的应用前景，可用于城市建模、虚拟现实、增强现实、游戏开发等领域。通过提升三维重建的质量和效率，GaussFusion 可以为用户提供更逼真、更沉浸式的体验。此外，GaussFusion 的实时渲染能力使其能够应用于交互式三维应用，例如虚拟漫游、远程协作等。未来，GaussFusion 有望成为三维重建领域的重要技术。

📄 摘要（原文）

We present GaussFusion, a novel approach for improving 3D Gaussian splatting (3DGS) reconstructions in the wild through geometry-informed video generation. GaussFusion mitigates common 3DGS artifacts, including floaters, flickering, and blur caused by camera pose errors, incomplete coverage, and noisy geometry initialization. Unlike prior RGB-based approaches limited to a single reconstruction pipeline, our method introduces a geometry-informed video-to-video generator that refines 3DGS renderings across both optimization-based and feed-forward methods. Given an existing reconstruction, we render a Gaussian primitive video buffer encoding depth, normals, opacity, and covariance, which the generator refines to produce temporally coherent, artifact-free frames. We further introduce an artifact synthesis pipeline that simulates diverse degradation patterns, ensuring robustness and generalization. GaussFusion achieves state-of-the-art performance on novel-view synthesis benchmarks, and an efficient variant runs in real time at 21 FPS while maintaining similar performance, enabling interactive 3D applications.

GaussFusion: Improving 3D Reconstruction in the Wild with A Geometry-Informed Video Generator

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理