Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian
作者: Wei Sun, Qi Zhang, Yanzhao Zhou, Qixiang Ye, Jianbin Jiao, Yuan Li
分类: cs.CV, cs.AI
发布日期: 2024-05-30
备注: 10pages
💡 一句话要点
提出UGOT方法,利用不确定性引导的最优传输解决稀疏视角3D高斯重建问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 深度监督 不确定性建模 最优传输
📋 核心要点
- 现有方法在稀疏视角下进行3D高斯重建时,依赖单目深度估计提供的伪标签,但深度估计本身存在不确定性。
- 论文提出UGOT方法,利用深度先验中的不确定性信息引导深度分布的监督,并结合patch-wise最优传输策略。
- 在LLFF、DTU和Blender数据集上的实验表明,UGOT方法在新视角合成任务上优于现有技术水平的方法。
📝 摘要(中文)
3D高斯溅射在实时新视角合成方面表现出令人印象深刻的性能。然而,从RGB图像成功重建通常需要静态条件下捕获的多个输入视图。为了应对稀疏输入视图的挑战,先前的方法已将深度监督纳入3D高斯的训练中,以减轻过拟合,使用预训练深度网络的密集预测作为伪真值。然而,单目深度估计模型的深度预测在特定区域内固有地表现出显著的不确定性。仅仅依赖于像素级的L2损失可能会无意中包含来自这些不确定区域的有害噪声。在这项工作中,我们引入了一种新方法来监督3D高斯的深度分布,利用具有综合不确定性估计的深度先验。为了解决深度预测中的这些局部误差,我们集成了一种patch-wise最优传输策略,以补充深度监督中的传统L2损失。在LLFF、DTU和Blender数据集上进行的大量实验表明,我们的方法UGOT实现了卓越的新视角合成,并且始终优于最先进的方法。
🔬 方法详解
问题定义:在稀疏视角下,利用3D高斯进行场景重建和新视角合成时,由于缺乏足够的几何约束,容易出现过拟合现象。现有方法通常采用预训练的单目深度估计网络提供深度监督,但单目深度估计本身存在不确定性,尤其是在纹理缺失或遮挡区域。直接使用这些带有噪声的深度预测作为监督信号,会降低重建质量。
核心思路:论文的核心思路是利用深度估计的不确定性信息,降低噪声深度预测对3D高斯训练的影响。具体来说,就是对深度预测的不确定性进行建模,并在损失函数中对不确定性高的区域进行降权,从而避免将噪声引入到3D高斯的训练中。此外,引入patch-wise最优传输策略,进一步提升深度监督的鲁棒性。
技术框架:UGOT方法的整体框架包括以下几个主要步骤:1) 使用预训练的单目深度估计网络预测输入图像的深度图和不确定性图;2) 将深度图和不确定性图作为深度先验,用于监督3D高斯的深度分布;3) 使用L2损失和最优传输损失来衡量预测深度和深度先验之间的差异,并根据不确定性图对L2损失进行加权;4) 通过优化3D高斯的参数,最小化总损失函数,从而实现场景重建和新视角合成。
关键创新:UGOT方法的关键创新在于:1) 将深度估计的不确定性信息融入到3D高斯的训练中,从而降低了噪声深度预测的影响;2) 引入patch-wise最优传输策略,增强了深度监督的鲁棒性,尤其是在深度预测存在局部误差的情况下。
关键设计:在损失函数设计方面,UGOT方法使用了加权L2损失和最优传输损失。加权L2损失的权重由深度估计的不确定性决定,不确定性越高,权重越低。最优传输损失则用于衡量预测深度和深度先验之间的分布差异,通过最小化两个分布之间的传输成本,实现更鲁棒的深度监督。具体的最优传输实现采用Sinkhorn算法加速计算。
🖼️ 关键图片
📊 实验亮点
UGOT方法在LLFF、DTU和Blender数据集上进行了广泛的实验,结果表明,UGOT方法在定量和定性上都优于现有的最先进方法。例如,在LLFF数据集上,UGOT方法在PSNR指标上取得了显著的提升,证明了其在稀疏视角下的重建能力。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在这些场景中,通常需要在稀疏的视觉输入下进行三维场景重建和新视角合成。通过利用深度不确定性信息,可以提高重建的准确性和鲁棒性,从而提升相关应用的用户体验和性能。
📄 摘要(原文)
3D Gaussian splatting has demonstrated impressive performance in real-time novel view synthesis. However, achieving successful reconstruction from RGB images generally requires multiple input views captured under static conditions. To address the challenge of sparse input views, previous approaches have incorporated depth supervision into the training of 3D Gaussians to mitigate overfitting, using dense predictions from pretrained depth networks as pseudo-ground truth. Nevertheless, depth predictions from monocular depth estimation models inherently exhibit significant uncertainty in specific areas. Relying solely on pixel-wise L2 loss may inadvertently incorporate detrimental noise from these uncertain areas. In this work, we introduce a novel method to supervise the depth distribution of 3D Gaussians, utilizing depth priors with integrated uncertainty estimates. To address these localized errors in depth predictions, we integrate a patch-wise optimal transport strategy to complement traditional L2 loss in depth supervision. Extensive experiments conducted on the LLFF, DTU, and Blender datasets demonstrate that our approach, UGOT, achieves superior novel view synthesis and consistently outperforms state-of-the-art methods.