Hybrid Latents: Geometry-Appearance-Aware Surfel Splatting

📄 arXiv: 2604.14928v2 📥 PDF

作者: Neel Kelkar, Simon Niedermayr, Klaus Engel, Rüdiger Westermann

分类: cs.CV, cs.GR

发布日期: 2026-04-16 (更新: 2026-04-17)

备注: 22 pages, 9 figures


💡 一句话要点

提出混合隐变量高斯-哈希网格辐射场,提升几何重建质量和渲染效率。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 高斯溅射 辐射场 几何重建 隐变量 哈希网格 概率剪枝

📋 核心要点

  1. NeRF类方法几何与外观易纠缠,高频纹理易补偿几何误差,导致重建质量下降。
  2. 提出混合隐变量高斯-哈希网格表示,显式分离低频几何和高频外观,减少二者耦合。
  3. 结合概率剪枝和稀疏性损失,去除冗余高斯,在保证重建质量的同时,显著减少图元数量。

📝 摘要(中文)

本文提出了一种混合高斯-哈希网格辐射表示方法,用于从多视角图像重建2D高斯场景模型。类似于NeST splatting,该方法减少了基于NeRF的模型中常见的几何和外观之间的纠缠,但增加了每个高斯的隐变量特征以及哈希网格特征,以引导优化器分离低频和高频场景分量。这种显式的基于频率的分解减少了高频纹理补偿几何误差的趋势。鼓励具有硬不透明度衰减的高斯进一步加强了几何和外观之间的分离,从而提高了几何重建和渲染效率。最后,概率剪枝与稀疏性诱导的BCE不透明度损失相结合,允许关闭冗余高斯,从而产生足以表示场景的最小高斯集合。使用合成和真实世界数据集,我们与基于高斯的新视角合成的最新技术进行了比较,并证明了以少一个数量级的图元实现了卓越的重建保真度。

🔬 方法详解

问题定义:现有基于NeRF的方法,特别是那些依赖于隐式表示的方法,在几何和外观之间存在严重的纠缠。这意味着高频纹理细节可能会被用来补偿几何形状的误差,导致重建的几何形状不准确。此外,这些方法通常需要大量的计算资源和时间来进行训练。

核心思路:本文的核心思路是将场景表示为一组2D高斯分布,并使用混合的隐变量和哈希网格特征来表示每个高斯的辐射场。通过显式地分离低频几何形状和高频外观细节,可以减少几何和外观之间的纠缠,从而提高重建的几何精度。此外,使用概率剪枝和稀疏性损失可以减少冗余高斯的数量,从而提高渲染效率。

技术框架:该方法首先从多视角图像中提取特征,然后使用这些特征来初始化一组2D高斯分布。每个高斯分布都与一个隐变量特征和一个哈希网格特征相关联。隐变量特征用于表示低频几何形状,而哈希网格特征用于表示高频外观细节。然后,使用一个优化器来调整高斯分布的位置、大小、方向和颜色,以及隐变量特征和哈希网格特征。在优化过程中,使用一个概率剪枝策略来去除冗余的高斯分布,并使用一个稀疏性损失来鼓励高斯分布具有稀疏的不透明度。

关键创新:该方法最重要的技术创新点在于使用了混合的隐变量和哈希网格特征来表示每个高斯的辐射场。这种混合表示可以显式地分离低频几何形状和高频外观细节,从而减少几何和外观之间的纠缠。此外,使用概率剪枝和稀疏性损失可以减少冗余高斯的数量,从而提高渲染效率。与现有方法相比,该方法能够以更少的图元实现更高的重建保真度。

关键设计:该方法使用了一个哈希网格来存储高频外观细节。哈希网格的大小和分辨率是可调的,可以根据场景的复杂程度进行调整。此外,该方法使用了一个BCE(Binary Cross-Entropy)损失来鼓励高斯分布具有稀疏的不透明度。BCE损失可以有效地惩罚具有高不透明度的冗余高斯分布,从而减少冗余高斯的数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在合成和真实世界数据集上均优于现有的基于高斯的新视角合成方法。在重建保真度方面,该方法能够以少一个数量级的图元数量达到更高的PSNR和SSIM指标。例如,在某个数据集上,该方法使用100K个高斯分布实现了与现有方法使用1M个高斯分布相当的重建质量。

🎯 应用场景

该研究成果可应用于三维重建、虚拟现实、增强现实、机器人导航等领域。通过更精确和高效的场景重建,可以提升虚拟体验的真实感,并为机器人提供更可靠的环境感知能力。未来,该技术有望在自动驾驶、城市建模等领域发挥重要作用。

📄 摘要(原文)

We introduce a hybrid Gaussian-hash-grid radiance representation for reconstructing 2D Gaussian scene models from multi-view images. Similar to NeST splatting, our approach reduces the entanglement between geometry and appearance common in NeRF-based models, but adds per-Gaussian latent features alongside hash-grid features to bias the optimizer toward a separation of low- and high-frequency scene components. This explicit frequency-based decomposition reduces the tendency of high-frequency texture to compensate for geometric errors. Encouraging Gaussians with hard opacity falloffs further strengthens the separation between geometry and appearance, improving both geometry reconstruction and rendering efficiency. Finally, probabilistic pruning combined with a sparsity-inducing BCE opacity loss allows redundant Gaussians to be turned off, yielding a minimal set of Gaussians sufficient to represent the scene. Using both synthetic and real-world datasets, we compare against the state of the art in Gaussian-based novel-view synthesis and demonstrate superior reconstruction fidelity with an order of magnitude fewer primitives.