Hybrid Latents -- Geometry-Appearance-Aware Surfel Splatting

📄 arXiv: 2604.14928v1 📥 PDF

作者: Neel Kelkar, Simon Niedermayr, Klaus Engel, Rüdiger Westermann

分类: cs.CV, cs.GR

发布日期: 2026-04-16

备注: 22 pages, 9 figures


💡 一句话要点

提出混合隐变量高斯溅射方法,提升多视角重建的几何与外观保真度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 三维重建 高斯溅射 隐变量表示 几何外观解耦

📋 核心要点

  1. NeRF方法中几何与外观的纠缠是重建高质量场景模型的挑战,高频纹理容易补偿几何误差。
  2. 引入混合隐变量高斯表示,结合哈希网格和高斯隐变量特征,显式分离场景的低频几何和高频外观。
  3. 通过概率剪枝和稀疏性损失,减少冗余高斯,在保证重建质量的同时,显著降低图元数量。

📝 摘要(中文)

本文提出了一种混合高斯-哈希网格辐射表示方法,用于从多视角图像中重建2D高斯场景模型。类似于NeST溅射,我们的方法减少了基于NeRF的模型中常见的几何和外观之间的纠缠,但增加了每个高斯的隐变量特征以及哈希网格特征,以引导优化器分离低频和高频场景分量。这种显式的基于频率的分解降低了高频纹理补偿几何误差的趋势。鼓励具有硬不透明度衰减的高斯进一步加强了几何和外观之间的分离,从而提高了几何重建和渲染效率。最后,概率剪枝与稀疏性诱导的BCE不透明度损失相结合,允许关闭冗余高斯,从而产生足以表示场景的最小高斯集合。使用合成和真实世界数据集,我们与基于高斯的新视角合成领域的最新技术进行了比较,并证明了以少一个数量级的图元实现了卓越的重建保真度。

🔬 方法详解

问题定义:现有基于NeRF的方法在多视角重建中,几何信息和外观信息相互纠缠,导致重建的几何形状不准确,并且渲染效率较低。高频纹理容易拟合几何误差,使得模型难以学习到真实的几何结构。

核心思路:本文的核心思路是通过显式地分离场景的低频几何信息和高频外观信息来解决几何-外观纠缠问题。具体来说,利用哈希网格特征捕捉低频几何信息,利用高斯隐变量特征捕捉高频外观信息。同时,通过概率剪枝和稀疏性损失来减少冗余高斯,提高渲染效率。

技术框架:该方法基于2D高斯溅射框架,整体流程如下:1) 初始化一组高斯图元;2) 使用混合特征表示(哈希网格特征 + 高斯隐变量特征)来描述每个高斯图元;3) 使用多视角图像进行优化,优化目标包括图像重建损失和稀疏性损失;4) 使用概率剪枝方法去除冗余高斯图元;5) 使用优化后的高斯图元进行新视角渲染。

关键创新:最重要的技术创新点在于混合特征表示,它将哈希网格特征和高斯隐变量特征结合起来,从而能够显式地分离场景的低频几何信息和高频外观信息。与现有方法相比,该方法能够更准确地重建场景的几何结构,并且渲染效率更高。

关键设计:关键设计包括:1) 使用哈希网格特征来捕捉低频几何信息;2) 使用高斯隐变量特征来捕捉高频外观信息;3) 使用BCE不透明度损失来鼓励高斯具有硬不透明度衰减,从而加强几何和外观之间的分离;4) 使用概率剪枝方法去除冗余高斯图元;5) 使用稀疏性诱导的损失函数来鼓励模型使用更少的图元。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在合成和真实数据集上均优于现有基于高斯的新视角合成方法。在重建保真度方面,该方法取得了显著提升,同时使用的图元数量减少了一个数量级。例如,在某个数据集上,该方法在PSNR指标上提升了X dB,同时使用的图元数量减少了Y%。

🎯 应用场景

该研究成果可应用于三维重建、新视角合成、虚拟现实、增强现实等领域。例如,可以用于创建高质量的3D模型,用于游戏开发、电影制作等。此外,还可以用于自动驾驶、机器人导航等领域,为机器人提供更准确的环境感知能力。未来,该技术有望进一步提升三维重建的精度和效率,并拓展到更广泛的应用场景。

📄 摘要(原文)

We introduce a hybrid Gaussian-hash-grid radiance representation for reconstructing 2D Gaussian scene models from multi-view images. Similar to NeST splatting, our approach reduces the entanglement between geometry and appearance common in NeRF-based models, but adds per-Gaussian latent features alongside hash-grid features to bias the optimizer toward a separation of low- and high-frequency scene components. This explicit frequency-based decomposition reduces the tendency of high-frequency texture to compensate for geometric errors. Encouraging Gaussians with hard opacity falloffs further strengthens the separation between geometry and appearance, improving both geometry reconstruction and rendering efficiency. Finally, probabilistic pruning combined with a sparsity-inducing BCE opacity loss allows redundant Gaussians to be turned off, yielding a minimal set of Gaussians sufficient to represent the scene. Using both synthetic and real-world datasets, we compare against the state of the art in Gaussian-based novel-view synthesis and demonstrate superior reconstruction fidelity with an order of magnitude fewer primitives.