SVR-GS: Spatially Variant Regularization for Probabilistic Masks in 3D Gaussian Splatting

📄 arXiv: 2509.11116v1 📥 PDF

作者: Ashkan Taghipour, Vahid Naghshin, Benjamin Southwell, Farid Boussaid, Hamid Laga, Mohammed Bennamoun

分类: cs.CV

发布日期: 2025-09-14


💡 一句话要点

SVR-GS:基于空间变异正则化的3D高斯溅射概率掩码优化

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 空间变异正则化 模型剪枝 实时渲染

📋 核心要点

  1. 3DGS依赖于高斯点的密集化和剪枝,现有基于掩码的剪枝方法与逐像素重建损失不一致。
  2. SVR-GS提出一种空间变异正则化器,通过高斯点对射线的贡献渲染逐像素空间掩码,实现局部稀疏性。
  3. 实验表明,SVR-GS在减少高斯点数量的同时,保持了图像质量,适用于实时应用。

📝 摘要(中文)

3D高斯溅射(3DGS)能够实现快速、高质量的新视角合成,但通常依赖于高斯点的密集化和剪枝来优化高斯点的数量。现有的基于掩码的剪枝方法,如MaskGS,对掩码的全局均值进行正则化,这与决定沿单个相机光线的图像质量的局部逐像素(逐射线)重建损失不一致。本文提出SVR-GS,一种空间变异正则化器,它从每个高斯点沿射线的有效贡献渲染逐像素空间掩码,从而在重要性较低的高斯点上施加稀疏性压力。我们探索了三种空间掩码聚合策略,在CUDA中实现了它们,并进行了梯度分析以证明我们最终设计的合理性。在Tanks&Temples、Deep Blending和Mip-NeRF360数据集上的大量实验表明,在三个数据集上平均,所提出的SVR-GS与MaskGS相比,减少了1.79倍的高斯点数量,与3DGS相比,减少了5.63倍,而PSNR分别仅下降了0.50 dB和0.40 dB。这些增益转化为更小、更快、更节省内存的模型,使其非常适合机器人、AR/VR和移动感知等实时应用。

🔬 方法详解

问题定义:3D高斯溅射(3DGS)在优化过程中,需要对高斯点的数量进行调整,传统的剪枝方法,如MaskGS,采用全局掩码均值正则化,这与实际的逐像素渲染损失不匹配,导致剪枝效果不佳,无法有效减少高斯点数量,影响渲染效率和模型大小。

核心思路:SVR-GS的核心思想是引入空间变异正则化,即根据每个高斯点对每个像素的贡献程度,动态地调整正则化强度。通过这种方式,可以更精确地识别并剪除对图像重建贡献较小的高斯点,从而在保证图像质量的前提下,显著减少高斯点的数量。

技术框架:SVR-GS的技术框架主要包括以下几个步骤:1) 使用3DGS进行初始渲染;2) 计算每个高斯点对每个像素的贡献度,生成空间掩码;3) 使用空间掩码对高斯点进行正则化,鼓励稀疏性;4) 迭代优化高斯点参数和空间掩码。其中,空间掩码的生成和正则化是关键环节。

关键创新:SVR-GS的关键创新在于提出了空间变异正则化器,它能够根据每个高斯点对每个像素的贡献度,动态地调整正则化强度。与传统的全局正则化方法相比,SVR-GS能够更精确地识别并剪除对图像重建贡献较小的高斯点,从而在保证图像质量的前提下,显著减少高斯点的数量。

关键设计:SVR-GS的关键设计包括:1) 三种空间掩码聚合策略,用于将每个高斯点的贡献度聚合为像素级别的掩码;2) 基于CUDA的实现,以加速空间掩码的计算和正则化过程;3) 梯度分析,用于指导空间掩码聚合策略的设计和参数调整。损失函数方面,除了标准的图像重建损失外,还包括一个基于空间掩码的正则化项,用于鼓励高斯点的稀疏性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SVR-GS在Tanks&Temples、Deep Blending和Mip-NeRF360数据集上,与MaskGS相比,平均减少了1.79倍的高斯点数量,与3DGS相比,减少了5.63倍,而PSNR分别仅下降了0.50 dB和0.40 dB。这些结果表明,SVR-GS能够在显著减少高斯点数量的同时,保持图像质量。

🎯 应用场景

SVR-GS通过减少3DGS模型中的高斯点数量,降低了模型的存储需求和渲染时间,使其更适用于资源受限的平台和实时应用。潜在应用领域包括机器人导航、增强现实(AR)、虚拟现实(VR)和移动感知等。更小的模型尺寸和更快的渲染速度有助于在这些领域实现更流畅的用户体验和更高效的计算。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) enables fast, high-quality novel view synthesis but typically relies on densification followed by pruning to optimize the number of Gaussians. Existing mask-based pruning, such as MaskGS, regularizes the global mean of the mask, which is misaligned with the local per-pixel (per-ray) reconstruction loss that determines image quality along individual camera rays. This paper introduces SVR-GS, a spatially variant regularizer that renders a per-pixel spatial mask from each Gaussian's effective contribution along the ray, thereby applying sparsity pressure where it matters: on low-importance Gaussians. We explore three spatial-mask aggregation strategies, implement them in CUDA, and conduct a gradient analysis to motivate our final design. Extensive experiments on Tanks\&Temples, Deep Blending, and Mip-NeRF360 datasets demonstrate that, on average across the three datasets, the proposed SVR-GS reduces the number of Gaussians by 1.79(\times) compared to MaskGS and 5.63(\times) compared to 3DGS, while incurring only 0.50 dB and 0.40 dB PSNR drops, respectively. These gains translate into significantly smaller, faster, and more memory-efficient models, making them well-suited for real-time applications such as robotics, AR/VR, and mobile perception.