A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose

📄 arXiv: 2405.03659v2 📥 PDF

作者: Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi

分类: cs.CV, cs.GR

发布日期: 2024-05-06 (更新: 2024-06-10)

DOI: 10.1145/3641519.3657427

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于3D高斯溅射的构造-优化方法,解决无相机位姿的稀疏视角合成问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 稀疏视角合成 无相机位姿 3D高斯溅射 神经渲染 相机配准

📋 核心要点

  1. 现有方法在无相机位姿的稀疏视角合成中,由于位姿和深度耦合及单目深度误差,效果不佳。
  2. 论文提出基于3D高斯溅射的构造-优化方法,通过单目深度反投影和2D对应关系优化逐步构建解决方案。
  3. 实验表明,该方法在稀疏视角下显著优于现有方法,且随着视角增加性能提升,甚至超越了使用更多数据的基线。

📝 摘要(中文)

本文提出了一种新颖的构造-优化方法,用于解决在相机位姿缺失或不准确情况下的稀疏视角图像合成难题。现有方法通常直接优化相机位姿并利用估计的深度信息,但在神经辐射场算法中效果不佳,因为位姿和深度之间存在耦合,且单目深度估计存在误差。本文利用3D高斯溅射方法,逐步构建解决方案,通过单目深度将像素反投影到3D世界中。在构建过程中,通过检测训练视角和对应渲染图像之间的2D对应关系来优化解。开发了一个统一的可微流程,用于相机配准和相机位姿及深度的调整,然后进行反投影。引入了高斯溅射中期望表面的概念,这对于优化至关重要。这些步骤实现了一个粗略的解,然后可以使用标准优化方法进行低通滤波和细化。在Tanks and Temples和Static Hikes数据集上,仅使用三个间隔很大的视角,结果表明该方法明显优于其他方法,包括那些具有近似相机位姿信息的方法。此外,随着视角数量的增加,结果得到改善,甚至在使用一半数据集的情况下,也优于之前的InstantNGP和高斯溅射算法。

🔬 方法详解

问题定义:论文旨在解决无相机位姿或位姿不准确情况下的稀疏视角合成问题。现有方法,如直接优化相机位姿和使用估计深度,在神经辐射场中表现不佳,主要原因是相机位姿和深度估计之间存在强耦合关系,以及单目深度估计本身的不准确性。这些问题导致合成的视角图像质量较差,难以满足实际应用需求。

核心思路:论文的核心思路是采用一种“构造-优化”的策略,逐步构建场景的3D表示,并在此过程中不断优化相机位姿和深度信息。具体来说,首先利用单目深度估计将像素反投影到3D空间,形成一个初始的3D场景结构。然后,通过检测训练视角和渲染图像之间的2D对应关系,来优化相机位姿和深度,从而提高3D场景表示的准确性。这种方法避免了直接优化位姿和深度带来的耦合问题,并利用2D对应关系作为约束,提高了优化过程的稳定性。

技术框架:整体流程包括以下几个主要阶段:1) 初始构造:利用单目深度估计将输入图像的像素反投影到3D空间,构建初始的3D高斯溅射场景。2) 相机配准与调整:通过可微的流程,对相机位姿和深度进行配准和调整,利用2D对应关系作为约束,优化相机参数。3) 期望表面计算:引入了高斯溅射中期望表面的概念,用于指导优化过程,提高场景表示的准确性。4) 低通滤波与细化:对优化后的场景进行低通滤波,去除噪声,然后使用标准优化方法进行细化,得到最终的合成结果。

关键创新:论文的关键创新在于提出了一种基于3D高斯溅射的构造-优化方法,该方法能够有效地解决无相机位姿的稀疏视角合成问题。与现有方法相比,该方法避免了直接优化相机位姿和深度带来的耦合问题,并利用2D对应关系作为约束,提高了优化过程的稳定性和准确性。此外,引入了高斯溅射中期望表面的概念,进一步提高了场景表示的质量。

关键设计:论文的关键设计包括:1) 可微的相机配准与调整流程:该流程能够有效地优化相机位姿和深度,利用2D对应关系作为约束,提高优化精度。2) 期望表面的计算方法:该方法能够有效地指导优化过程,提高场景表示的准确性。3) 损失函数的设计:论文设计了合适的损失函数,用于衡量渲染图像与真实图像之间的差异,并指导优化过程。具体的损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Tanks and Temples和Static Hikes数据集上,仅使用三个间隔很大的视角,就能够显著优于其他方法,包括那些具有近似相机位姿信息的方法。此外,随着视角数量的增加,结果得到进一步改善,甚至在使用一半数据集的情况下,也优于之前的InstantNGP和高斯溅射算法。这些结果表明,该方法在稀疏视角合成方面具有显著的优势。

🎯 应用场景

该研究成果可应用于多种场景,如:1) 机器人导航:在缺乏精确地图和相机位姿的情况下,利用稀疏的图像信息进行场景重建和导航。2) 虚拟现实/增强现实:利用少量图像快速生成高质量的虚拟场景,提升用户体验。3) 自动驾驶:在传感器数据不完整或不准确的情况下,利用视觉信息进行环境感知和场景理解。未来,该技术有望在更多领域得到应用,例如文物保护、城市建模等。

📄 摘要(原文)

Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. Project page: https://raymondjiangkw.github.io/cogs.github.io/