NVGS: Neural Visibility for Occlusion Culling in 3D Gaussian Splatting

📄 arXiv: 2511.19202v1 📥 PDF

作者: Brent Zoomers, Florian Hahlbohm, Joni Vanherck, Lode Jorissen, Marcus Magnor, Nick Michiels

分类: cs.CV, cs.GR

发布日期: 2025-11-24

备注: 15 pages, 13 figures


💡 一句话要点

提出基于神经可见性的3D高斯溅射遮挡剔除方法,提升复杂场景渲染效率。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D高斯溅射 遮挡剔除 神经渲染 可见性预测 实例化渲染

📋 核心要点

  1. 传统遮挡剔除方法难以应用于半透明的3D高斯溅射,导致渲染效率受限。
  2. 利用小型共享MLP学习高斯图元的视角相关可见性函数,实现高效的遮挡剔除。
  3. 集成了神经查询的实例化软件光栅器,在VRAM使用和图像质量上超越现有技术。

📝 摘要(中文)

3D高斯溅射可以通过视锥剔除和细节层次策略来加速包含大量图元的场景渲染。然而,高斯半透明的特性阻碍了另一种高效技术——遮挡剔除的应用。本文提出了一种新方法,利用一个小型共享MLP来学习训练模型中所有高斯的视角相关可见性函数。通过在光栅化之前查询视锥体内的这些高斯,我们的方法可以在渲染过程中丢弃被遮挡的图元。利用Tensor Core进行高效计算,我们将这些神经查询直接集成到一个新的实例化软件光栅器中。在组合场景中,我们的方法在VRAM使用和图像质量方面优于当前最先进的技术,这得益于我们的实例化光栅器和遮挡剔除MLP的结合,并且与现有的LoD技术具有互补的特性。

🔬 方法详解

问题定义:现有3D高斯溅射渲染方法虽然可以利用视锥剔除和LOD技术加速渲染,但由于高斯图元的半透明特性,无法有效利用遮挡剔除技术。这导致在复杂场景中,大量被遮挡的图元仍然需要进行不必要的渲染计算,浪费计算资源和显存,降低渲染效率。现有方法无法有效判断高斯图元的可见性,从而无法进行有效的遮挡剔除。

核心思路:论文的核心思路是学习一个视角相关的可见性函数,用于预测每个高斯图元在特定视角下的可见性。通过在渲染前查询该函数,可以快速剔除被遮挡的图元,从而减少渲染计算量。该方法使用一个小型共享MLP来学习这个可见性函数,使得可以高效地应用于场景中的多个实例。

技术框架:该方法主要包含以下几个阶段:1) 训练阶段:使用训练数据训练一个小型共享MLP,使其能够预测高斯图元的可见性。2) 渲染阶段:首先,对场景中的所有高斯图元进行视锥剔除。然后,对于视锥体内的每个高斯图元,查询训练好的MLP,获得其可见性评分。根据可见性评分,剔除被遮挡的图元。最后,使用一个优化的实例化软件光栅器渲染剩余的可见图元。

关键创新:该方法最重要的创新点在于使用一个小型共享MLP来学习高斯图元的可见性函数。与传统的遮挡剔除方法相比,该方法不需要进行复杂的几何计算,而是通过神经网络学习的方式来预测可见性,从而更加高效。此外,使用共享MLP可以减少模型的参数量,使其可以应用于大规模场景。

关键设计:该方法使用一个小型多层感知机(MLP)来学习可见性函数。MLP的输入包括高斯图元的位置、大小、旋转以及视角信息。MLP的输出是一个介于0和1之间的可见性评分,表示该高斯图元的可见程度。损失函数的设计目标是使MLP能够准确预测高斯图元的可见性。具体来说,可以使用二元交叉熵损失函数,将高斯图元的可见性作为标签,训练MLP进行二分类。

📊 实验亮点

实验结果表明,该方法在组合场景中,相比于现有技术,在VRAM使用和图像质量方面均有显著提升。具体来说,该方法能够有效减少需要渲染的图元数量,从而降低VRAM的占用。同时,由于剔除了被遮挡的图元,可以避免不必要的渲染计算,从而提升渲染效率。此外,该方法与现有的LoD技术具有互补性,可以进一步提升渲染性能。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发等领域,尤其是在需要渲染大规模复杂场景的应用中,例如城市建模、室内设计、虚拟漫游等。通过高效的遮挡剔除,可以显著提升渲染效率,降低硬件需求,从而为用户带来更流畅、更逼真的体验。未来,该技术有望进一步扩展到动态场景和更复杂的渲染管线中。

📄 摘要(原文)

3D Gaussian Splatting can exploit frustum culling and level-of-detail strategies to accelerate rendering of scenes containing a large number of primitives. However, the semi-transparent nature of Gaussians prevents the application of another highly effective technique: occlusion culling. We address this limitation by proposing a novel method to learn the viewpoint-dependent visibility function of all Gaussians in a trained model using a small, shared MLP across instances of an asset in a scene. By querying it for Gaussians within the viewing frustum prior to rasterization, our method can discard occluded primitives during rendering. Leveraging Tensor Cores for efficient computation, we integrate these neural queries directly into a novel instanced software rasterizer. Our approach outperforms the current state of the art for composed scenes in terms of VRAM usage and image quality, utilizing a combination of our instanced rasterizer and occlusion culling MLP, and exhibits complementary properties to existing LoD techniques.