Faster 3D Gaussian Splatting Convergence via Structure-Aware Densification

📄 arXiv: 2604.28016v1 📥 PDF

作者: Linjie Lyu, Ayush Tewari, Jianchun Chen, Thomas Leimkühler, Christian Theobalt

分类: cs.CV, cs.GR, cs.LG

发布日期: 2026-04-30

备注: Siggraph 2026

DOI: 10.1145/3799902.3811212


💡 一句话要点

提出结构感知密度控制,加速3D高斯溅射收敛并提升重建质量

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 密度控制 结构感知 频率分析

📋 核心要点

  1. 现有3D高斯溅射方法依赖屏幕空间梯度进行密度控制,无法有效区分几何误差和频率混叠。
  2. 本文提出结构感知密度控制,通过比较高斯投影范围和局部纹理结构来驱动高斯分裂。
  3. 实验表明,该方法能加速收敛,并显著提升高频区域的重建质量。

📝 摘要(中文)

3D高斯溅射已成为实时新视角合成的强大场景表示方法。然而,其标准的自适应密度控制依赖于屏幕空间的位置梯度,无法区分几何错位和频率混叠,导致过度模糊的高频纹理或低效的过度密集化。本文提出了一种结构感知的密度控制框架。核心思想是,高斯分裂的决策应基于其投影屏幕空间范围与所表示纹理局部结构的显式比较。引入多尺度频率分析,结合结构张量和拉普拉斯尺度空间分析,估计每个像素的主导频率,从而实现跨不同纹理尺度的鲁棒监督。基于此分析,定义了每高斯、每轴的频率违反度量$η$,指示图元何时可能无法充分解析局部纹理细节。与各向同性分裂的方法不同,本文方法执行各向异性分裂。对于具有高$η$的每个轴,计算分裂因子以更好地解析局部频率内容。进一步引入多视角一致性准则,聚合多个视角下的$η$观测。通过更早、更快地执行密度控制,跳过基线方法所需的漫长迭代密度控制阶段,并实现显著更快的收敛。在标准基准上的实验表明,该方法还实现了卓越的重建质量,尤其是在高频区域。

🔬 方法详解

问题定义:现有3D高斯溅射方法在密度控制方面存在不足。它们依赖于屏幕空间的位置梯度,无法有效区分由于几何错位导致的误差和由于频率混叠导致的误差。这导致两个问题:一是过度模糊高频纹理,二是低效的过度密集化,即不必要地增加高斯图元的数量,从而降低渲染效率。现有方法需要漫长的迭代优化过程才能达到较好的重建效果。

核心思路:本文的核心思路是,高斯图元的分裂决策应该基于其投影到屏幕上的范围与它试图表示的局部纹理结构的显式比较。如果高斯图元的尺寸远大于局部纹理的细节,则应该进行分裂。通过分析局部纹理的频率内容,可以更准确地判断高斯图元是否能够充分解析局部纹理细节,从而避免过度模糊和过度密集化。

技术框架:该方法主要包含以下几个阶段:1) 多尺度频率分析:使用结构张量和拉普拉斯尺度空间分析来估计每个像素的主导频率。2) 频率违反度量计算:基于频率分析结果,计算每个高斯图元在每个轴上的频率违反度量$η$,该指标表示高斯图元是否能够充分解析局部纹理细节。3) 各向异性分裂:根据频率违反度量$η$,对高斯图元进行各向异性分裂。对于具有高$η$的轴,计算分裂因子以更好地解析局部频率内容。4) 多视角一致性:引入多视角一致性准则,聚合多个视角下的$η$观测,以提高密度控制的鲁棒性。

关键创新:该方法最重要的技术创新点在于结构感知的密度控制。与现有方法不同,该方法不是简单地基于屏幕空间梯度进行密度控制,而是显式地考虑了局部纹理的结构信息。通过多尺度频率分析,可以更准确地判断高斯图元是否能够充分解析局部纹理细节,从而避免过度模糊和过度密集化。此外,该方法采用各向异性分裂,可以更有效地利用高斯图元来表示局部纹理。

关键设计:在多尺度频率分析中,使用了结构张量和拉普拉斯尺度空间分析。结构张量可以提取图像的局部结构信息,拉普拉斯尺度空间分析可以提取图像在不同尺度下的频率信息。频率违反度量$η$的计算公式需要根据具体实现进行调整,以平衡重建质量和渲染效率。各向异性分裂的分裂因子也需要根据频率违反度量$η$进行调整,以更好地解析局部频率内容。多视角一致性准则可以通过加权平均或最大池化等方式聚合多个视角下的$η$观测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在标准基准测试中实现了更快的收敛速度和更高的重建质量,尤其是在高频区域。与现有方法相比,该方法能够显著减少迭代优化所需的步骤,并生成更清晰、更逼真的图像。具体性能数据(例如PSNR、SSIM等)和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于新视角合成、虚拟现实、增强现实、机器人导航等领域。通过更高效、高质量的场景重建,可以提升用户在虚拟环境中的沉浸感和交互体验。在机器人领域,可以帮助机器人更好地理解周围环境,从而实现更智能的导航和操作。

📄 摘要(原文)

3D Gaussian Splatting has emerged as a powerful scene representation for real-time novel-view synthesis. However, its standard adaptive density control relies on screen-space positional gradients, which do not distinguish between geometric misplacement and frequency aliasing, often leading to either over-blurred high-frequency textures or inefficient over-densification. We present a structure-aware densification framework. Our key insight is that the decision to subdivide a Gaussian should be driven by an explicit comparison between its projected screen-space extent and the local structure of the texture it seeks to represent. We introduce a multi-scale frequency analysis combining structure tensors with Laplacian scale space analysis to estimate the dominant frequency at each pixel, enabling robust supervision across varying texture scales. Based on this analysis, we define $η$, a per-Gaussian, per-axis frequency violation metric that indicates when a primitive may be under-resolving local texture details. Unlike methods that perform isotropic splitting (e.g., splitting each Gaussian into two smaller ones with uniform shape), our approach performs anisotropic splitting. For each axis with high $η$, we compute a split factor to better resolve the local frequency content. We further introduce a multiview consistency criterion that aggregates $η$ observations across multiple views. By performing densification early and faster, we skip the lengthy iterative densification phases required by baseline methods and achieve significantly faster convergence. Experiments on standard benchmarks demonstrate that our method also achieves superior reconstruction quality, particularly in high-frequency regions.