Learning Fine-Grained Geometry for Sparse-View Splatting via Cascade Depth Loss
作者: Wenjun Lu, Haodong Chen, Anqi Yi, Yuk Ying Chung, Zhiyong Wang, Kun Hu
分类: cs.CV
发布日期: 2025-05-28
💡 一句话要点
提出HDGS框架,通过级联深度损失学习细粒度几何信息,提升稀疏视角下的splatting效果。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 稀疏视角 3D高斯Splatting 深度监督 几何重建
📋 核心要点
- 现有NeRF和3DGS方法在稀疏视角下重建质量下降,出现模糊和结构伪影,原因是几何线索不足。
- HDGS通过级联皮尔逊相关损失(CPCL)在多尺度上对齐渲染深度和单目深度,从而细化几何形状。
- 实验表明,HDGS在稀疏视角下,在LLFF和DTU数据集上实现了state-of-the-art的性能,并保持高效渲染。
📝 摘要(中文)
新视角合成是3D计算机视觉中的一项基本任务,旨在从一组已知的输入视角重建逼真的图像。然而,由于几何线索有限,在稀疏视角条件下,重建质量会显著下降。现有的方法,如神经辐射场(NeRF)和最近的3D高斯Splatting(3DGS),在训练数据不足时,通常会受到模糊细节和结构伪影的影响。最近的研究表明,渲染深度的质量是减轻这些伪影的关键因素,因为它直接影响几何精度和视角一致性。本文提出了一种分层深度引导Splatting(HDGS),这是一种深度监督框架,可以从粗到精逐步细化几何形状。HDGS的核心是一种新的级联皮尔逊相关损失(CPCL),它可以在多个空间尺度上对齐渲染深度和估计的单目深度。通过强制执行多尺度深度一致性,我们的方法显著提高了稀疏视角场景中的结构保真度。在LLFF和DTU基准上的大量实验表明,HDGS在稀疏视角设置下实现了最先进的性能,同时保持了高效和高质量的渲染。
🔬 方法详解
问题定义:论文旨在解决稀疏视角下新视角合成中,由于几何信息不足导致的重建质量下降问题。现有方法,如NeRF和3DGS,在稀疏视角下容易产生模糊细节和结构伪影,难以保证几何精度和视角一致性。
核心思路:论文的核心思路是通过深度监督来提升几何重建的质量。具体来说,通过引入多尺度的深度一致性约束,迫使模型学习更准确的几何信息,从而改善新视角合成的效果。这种方法利用了深度信息对几何形状的强约束作用,尤其是在视角信息稀疏的情况下。
技术框架:HDGS(Hierarchical Depth-Guided Splatting)框架包含以下几个主要部分:1) 3D高斯Splatting作为基础渲染框架;2) 单目深度估计器,用于估计场景的深度信息;3) 级联皮尔逊相关损失(CPCL),用于在多个尺度上对齐渲染深度和估计的单目深度。整体流程是:首先使用3DGS进行渲染,然后计算渲染深度,同时使用单目深度估计器估计深度,最后通过CPCL损失函数优化3DGS的参数。
关键创新:论文的关键创新在于提出了级联皮尔逊相关损失(CPCL)。与传统的深度损失函数不同,CPCL在多个空间尺度上计算渲染深度和估计深度的皮尔逊相关性,从而能够更好地捕捉不同尺度的几何信息。这种多尺度约束能够更有效地提升几何重建的精度和鲁棒性。
关键设计:CPCL损失函数是关键设计之一,它在多个尺度上计算渲染深度和估计深度的皮尔逊相关系数,并将其作为损失函数的一部分。具体来说,首先对渲染深度和估计深度进行下采样,得到多个尺度的深度图,然后在每个尺度上计算皮尔逊相关系数。最终的损失函数是所有尺度上的皮尔逊相关系数的加权和。此外,论文还使用了3D高斯Splatting作为基础渲染框架,并对其参数进行了优化,以更好地适应稀疏视角下的新视角合成任务。
🖼️ 关键图片
📊 实验亮点
HDGS在LLFF和DTU数据集的稀疏视角设置下取得了state-of-the-art的性能。例如,在LLFF数据集上,HDGS在PSNR、SSIM和LPIPS等指标上均优于现有方法。尤其是在视角数量较少的情况下,HDGS的提升更为显著,表明其在稀疏视角下的优越性。实验结果验证了CPCL损失函数在提升几何重建质量方面的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在这些应用中,从有限的视角重建高质量的3D场景至关重要。例如,自动驾驶系统需要从车载摄像头获取的稀疏图像中准确地重建周围环境,以进行安全导航。该方法还可以用于生成高质量的3D模型,用于游戏开发和电影制作等领域。
📄 摘要(原文)
Novel view synthesis is a fundamental task in 3D computer vision that aims to reconstruct realistic images from a set of posed input views. However, reconstruction quality degrades significantly under sparse-view conditions due to limited geometric cues. Existing methods, such as Neural Radiance Fields (NeRF) and the more recent 3D Gaussian Splatting (3DGS), often suffer from blurred details and structural artifacts when trained with insufficient views. Recent works have identified the quality of rendered depth as a key factor in mitigating these artifacts, as it directly affects geometric accuracy and view consistency. In this paper, we address these challenges by introducing Hierarchical Depth-Guided Splatting (HDGS), a depth supervision framework that progressively refines geometry from coarse to fine levels. Central to HDGS is a novel Cascade Pearson Correlation Loss (CPCL), which aligns rendered and estimated monocular depths across multiple spatial scales. By enforcing multi-scale depth consistency, our method substantially improves structural fidelity in sparse-view scenarios. Extensive experiments on the LLFF and DTU benchmarks demonstrate that HDGS achieves state-of-the-art performance under sparse-view settings while maintaining efficient and high-quality rendering