ODGS: 3D Scene Reconstruction from Omnidirectional Images with 3D Gaussian Splattings

📄 arXiv: 2410.20686v1 📥 PDF

作者: Suyoung Lee, Jaeyoung Chung, Jaeyoo Huh, Kyoung Mu Lee

分类: cs.CV

发布日期: 2024-10-28

🔗 代码/项目: GITHUB


💡 一句话要点

ODGS:基于3D高斯溅射的360度全景图像三维场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 三维重建 全景图像 3D高斯溅射 光栅化 神经辐射场

📋 核心要点

  1. 现有基于神经辐射场的方法重建全景图像三维场景时,存在训练和渲染时间过长的问题,难以满足实时性需求。
  2. ODGS的核心思想是为每个高斯分布定义一个切平面,并利用透视相机光栅化器将高斯分布投影到该切平面上,从而实现全景图像的光栅化。
  3. 实验结果表明,ODGS在重建质量和感知质量方面优于现有方法,并且优化和渲染速度比基于NeRF的方法快100倍。

📝 摘要(中文)

本文提出了一种名为ODGS的全新方法,用于从全景图像中进行三维场景重建。全景图像因其能够用单张图像渲染整个场景而被广泛应用于三维应用中。虽然基于神经辐射场的现有方法在自中心视频的三维重建质量上表现出色,但它们存在训练和渲染时间过长的问题。最近,3D高斯溅射因其快速优化和实时渲染而备受关注。然而,直接使用透视光栅化器处理全景图像会导致严重的失真,这是由于两种图像域之间存在不同的光学特性。ODGS针对全景图像提出了一种新的光栅化流程,并具有几何解释。对于每个高斯分布,我们定义一个与单位球相切且垂直于指向高斯中心的光线的切平面。然后,我们利用透视相机光栅化器将高斯分布投影到相应的切平面上。投影的高斯分布被转换并组合成全景图像,从而完成全景光栅化过程。这种解释揭示了所提出流程中的隐式假设,我们通过数学证明验证了这些假设。整个光栅化过程使用CUDA并行化,实现了比基于NeRF的方法快100倍的优化和渲染速度。全面的实验表明,ODGS在各种数据集上提供了最佳的重建和感知质量。此外,在漫游数据集上的结果表明,即使在重建大型3D场景时,ODGS也能有效地恢复精细的细节。源代码可在我们的项目页面上找到。

🔬 方法详解

问题定义:现有方法在全景图像三维重建中,特别是基于神经辐射场的方法,面临着训练和渲染时间过长的问题。直接将透视投影应用于全景图像会导致严重的几何失真,影响重建质量。因此,需要一种高效且准确的全景图像三维重建方法。

核心思路:ODGS的核心思路是针对全景图像的特殊性质,设计一种新的光栅化流程。它没有直接使用透视投影,而是为每个3D高斯分布定义一个与单位球相切的切平面,然后将高斯分布投影到该切平面上。这种方法能够更好地适应全景图像的几何特性,减少失真。

技术框架:ODGS的整体框架包括以下几个主要步骤:1) 初始化3D高斯分布;2) 对每个高斯分布,计算其对应的切平面;3) 使用透视相机光栅化器将高斯分布投影到切平面上;4) 将投影的高斯分布转换并组合成全景图像;5) 通过优化高斯分布的参数来提高重建质量。整个过程使用CUDA并行化加速。

关键创新:ODGS的关键创新在于其针对全景图像设计的光栅化流程。与直接使用透视投影不同,ODGS通过引入切平面的概念,更好地适应了全景图像的几何特性。这种方法能够有效地减少几何失真,提高重建质量。此外,ODGS还通过CUDA并行化加速了整个过程,实现了实时渲染。

关键设计:ODGS的关键设计包括:1) 切平面的定义方式,确保其与单位球相切且垂直于指向高斯中心的光线;2) 透视相机光栅化器的参数设置,使其能够准确地将高斯分布投影到切平面上;3) 损失函数的设计,用于优化高斯分布的参数,提高重建质量。具体损失函数细节论文中未明确说明,可能使用了常见的重建损失和正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ODGS在多个数据集上取得了最佳的重建和感知质量。实验结果表明,ODGS的优化和渲染速度比基于NeRF的方法快100倍。此外,在漫游数据集上的结果表明,即使在重建大型3D场景时,ODGS也能有效地恢复精细的细节。具体性能数据和对比基线未在摘要中详细给出,需查阅论文全文。

🎯 应用场景

ODGS在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以用于快速构建高质量的三维场景模型,为用户提供沉浸式的体验。此外,ODGS还可以用于机器人和自动驾驶车辆的环境感知,帮助它们更好地理解周围环境。

📄 摘要(原文)

Omnidirectional (or 360-degree) images are increasingly being used for 3D applications since they allow the rendering of an entire scene with a single image. Existing works based on neural radiance fields demonstrate successful 3D reconstruction quality on egocentric videos, yet they suffer from long training and rendering times. Recently, 3D Gaussian splatting has gained attention for its fast optimization and real-time rendering. However, directly using a perspective rasterizer to omnidirectional images results in severe distortion due to the different optical properties between two image domains. In this work, we present ODGS, a novel rasterization pipeline for omnidirectional images, with geometric interpretation. For each Gaussian, we define a tangent plane that touches the unit sphere and is perpendicular to the ray headed toward the Gaussian center. We then leverage a perspective camera rasterizer to project the Gaussian onto the corresponding tangent plane. The projected Gaussians are transformed and combined into the omnidirectional image, finalizing the omnidirectional rasterization process. This interpretation reveals the implicit assumptions within the proposed pipeline, which we verify through mathematical proofs. The entire rasterization process is parallelized using CUDA, achieving optimization and rendering speeds 100 times faster than NeRF-based methods. Our comprehensive experiments highlight the superiority of ODGS by delivering the best reconstruction and perceptual quality across various datasets. Additionally, results on roaming datasets demonstrate that ODGS restores fine details effectively, even when reconstructing large 3D scenes. The source code is available on our project page (https://github.com/esw0116/ODGS).