A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction

📄 arXiv: 2405.20310v3 📥 PDF

作者: Jianghao Shen, Nan Xue, Tianfu Wu

分类: cs.CV

发布日期: 2024-05-30 (更新: 2024-06-03)

备注: preprint, under review


💡 一句话要点

提出分层 Splatter Image 方法,利用多高斯模型提升单视角3D重建中遮挡区域的建模能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单视角3D重建 3D高斯溅射 遮挡处理 新视角合成 分层表示

📋 核心要点

  1. 单视角3D重建面临遮挡区域信息缺失的挑战,现有方法难以有效建模不可见区域。
  2. 提出分层Splatter Image,为每个像素引入父子高斯结构,子高斯用于重建遮挡区域。
  3. 实验表明,该方法在ShapeNet-SRN和CO3D数据集上取得了SOTA性能,尤其擅长重建遮挡内容。

📝 摘要(中文)

本文针对单视角图像进行3D场景重建这一长期存在的计算机视觉基础问题,旨在解决从输入视角无法观察到的内容的预测歧义性。基于最近提出的3D高斯溅射(3DGS),Splatter Image方法通过为每个像素学习一个3D高斯模型,在快速单图像新视角合成方面取得了有希望的进展。然而,它在表示输入视图中不可见的遮挡组件方面表达能力有限。为了解决这个问题,本文提出了一种分层Splatter Image方法,其中每个像素由一个父3D高斯和少量子3D高斯表示。父3D高斯以与原始Splatter Image相同的方式学习。子3D高斯通过一个轻量级多层感知器(MLP)学习,该MLP以父3D高斯的投影图像特征和目标相机视角的嵌入作为输入。父高斯和子高斯都以阶段式的方式端到端学习。来自父高斯视角的输入图像特征和目标相机位置的联合条件,有助于学习分配子高斯以“看到未见之物”,从而恢复父高斯经常遗漏的遮挡细节。实验表明,该方法在ShapeNet-SRN和CO3D数据集上取得了最先进的性能,尤其是在重建输入视图中的遮挡内容方面表现出良好的能力。

🔬 方法详解

问题定义:论文旨在解决单视角3D重建中,由于遮挡导致的信息缺失问题。现有的Splatter Image方法虽然能快速合成新视角图像,但对遮挡区域的建模能力不足,难以重建输入视图中不可见的细节。

核心思路:论文的核心思路是为每个像素引入多个3D高斯模型,形成一种分层结构。其中,父高斯负责重建可见区域,而子高斯则专门用于重建被遮挡的区域。通过这种方式,可以提升模型对遮挡区域的表达能力,从而更完整地重建3D场景。

技术框架:整体框架包括两个主要阶段:首先,学习父3D高斯,这与原始Splatter Image方法类似,基于U-Net提取的图像特征为每个像素学习一个3D高斯。然后,学习子3D高斯,这部分是论文的关键创新。子3D高斯通过一个轻量级的MLP学习,该MLP的输入包括父3D高斯的投影图像特征和目标相机视角的嵌入。父高斯和子高斯都以端到端的方式进行训练。

关键创新:最关键的创新在于引入了分层高斯结构,并利用MLP学习子高斯。子高斯的学习不仅依赖于父高斯的特征,还依赖于目标相机的位置信息。这种联合条件作用使得子高斯能够“看到未见之物”,从而重建遮挡区域。与现有方法相比,该方法能够更有效地利用上下文信息,提升对遮挡区域的建模能力。

关键设计:子高斯的数量是一个关键参数,论文中使用了少量子高斯以保证效率。MLP的网络结构也需要仔细设计,以平衡表达能力和计算复杂度。损失函数的设计也很重要,需要同时考虑可见区域和遮挡区域的重建误差。具体参数设置和网络结构细节在论文中进行了详细描述,但此处信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ShapeNet-SRN和CO3D数据集上取得了state-of-the-art的性能。尤其是在重建遮挡内容方面,该方法表现出显著的优势。具体的性能数据和对比基线在论文中进行了详细的展示,但此处信息未知。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在这些场景中,准确的3D场景重建至关重要,尤其是在存在遮挡的情况下。该方法能够提升对遮挡区域的建模能力,从而提高场景理解的准确性和鲁棒性,为相关应用提供更好的支持。

📄 摘要(原文)

Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.