EdgeGaussians -- 3D Edge Mapping via Gaussian Splatting

📄 arXiv: 2409.12886v2 📥 PDF

作者: Kunal Chelani, Assia Benbihi, Torsten Sattler, Fredrik Kahl

分类: cs.CV

发布日期: 2024-09-19 (更新: 2025-02-11)

备注: To appear in the proceedings of WACV 2025

期刊: Winter Conference on Applications of Computer Vision 2025

🔗 代码/项目: GITHUB


💡 一句话要点

EdgeGaussians:提出基于高斯溅射的3D边缘显式映射方法,提升边缘重建效率。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D边缘检测 高斯溅射 三维重建 显式表示 边缘映射

📋 核心要点

  1. 现有基于图像的3D边缘重建方法依赖隐式场采样,存在采样精度低和计算成本高的挑战。
  2. EdgeGaussians显式地学习3D边缘点和方向,避免了隐式场采样,提高了效率和精度。
  3. 实验表明,EdgeGaussians在保持精度的同时,比现有技术快一个数量级。

📝 摘要(中文)

本文提出了一种基于高斯溅射的3D边缘映射方法,旨在解决现有基于图像的3D边缘重建方法的局限性。现有方法通常先学习一个3D神经隐式边缘场,然后从中采样3D边缘点,再拟合3D边缘。这种方法存在两个主要缺点:一是由于浮点精度和训练不准确性,难以在精确的水平集上采样点,导致采样点不准确;二是隐式表示计算成本高,训练时间长。本文方法通过显式地学习3D边缘点及其边缘方向,避免了点采样的需求。该方法将3D边缘点表示为3D高斯的中心,并将边缘方向表示为高斯的主轴。这种表示不仅具有几何意义,而且与高斯溅射中定义的高效训练优化兼容。实验结果表明,该方法在保证与现有技术相当的精度和完整性的同时,速度提高了一个数量级。

🔬 方法详解

问题定义:现有基于图像的3D边缘重建方法,依赖于学习3D神经隐式边缘场,然后从中采样边缘点。这种方法的痛点在于,由于浮点数精度和训练误差,难以精确采样到边缘点上,需要额外的后处理。此外,隐式表示的计算复杂度较高,训练时间较长。

核心思路:EdgeGaussians的核心思路是直接显式地学习3D边缘点及其边缘方向,从而避免隐式场的采样过程。通过将边缘点表示为3D高斯的中心,并将边缘方向表示为高斯的主轴,实现了边缘几何信息的有效编码。这种显式表示方法不仅更直观,而且与高斯溅射的优化框架天然兼容,能够实现高效的训练。

技术框架:EdgeGaussians的整体框架包括以下几个主要步骤:1) 使用多视角图像作为输入;2) 初始化一组3D高斯分布,每个高斯分布代表一个潜在的边缘点;3) 通过可微分的渲染过程,将3D高斯投影到2D图像平面上;4) 计算渲染图像与真实图像之间的损失,并利用梯度下降优化高斯分布的参数,包括位置、协方差矩阵(反映边缘方向)和颜色等;5) 经过迭代优化,最终得到一组能够准确表示3D边缘的高斯分布。

关键创新:EdgeGaussians最重要的创新在于将3D边缘表示为3D高斯分布,并利用高斯溅射的优化框架进行训练。与现有基于隐式场的方法相比,EdgeGaussians避免了复杂的采样过程,直接学习边缘点和方向,从而提高了效率和精度。此外,高斯表示具有几何意义,能够更好地表达边缘的结构信息。

关键设计:EdgeGaussians的关键设计包括:1) 使用3D高斯分布表示边缘点,其中高斯的中心代表边缘点的位置,协方差矩阵代表边缘的方向;2) 利用高斯溅射的可微分渲染过程,将3D高斯投影到2D图像平面上,并计算渲染损失;3) 使用梯度下降优化高斯分布的参数,包括位置、协方差矩阵和颜色等;4) 损失函数的设计需要考虑边缘的完整性和准确性,例如可以使用边缘检测算子提取图像中的边缘,并将其作为监督信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EdgeGaussians在边缘重建的精度和完整性方面与现有技术相当,但训练速度提高了一个数量级。这主要归功于EdgeGaussians显式地学习边缘点和方向,避免了隐式场的采样过程。此外,EdgeGaussians利用高斯溅射的优化框架,实现了高效的训练。

🎯 应用场景

EdgeGaussians在三维重建、机器人导航、场景理解等领域具有广泛的应用前景。它可以用于构建更精确的3D边缘地图,从而提高机器人对环境的感知能力。此外,EdgeGaussians还可以用于增强现实和虚拟现实应用,例如在虚拟场景中添加逼真的边缘效果。未来,该方法有望应用于自动驾驶、工业检测等领域。

📄 摘要(原文)

With their meaningful geometry and their omnipresence in the 3D world, edges are extremely useful primitives in computer vision. 3D edges comprise of lines and curves, and methods to reconstruct them use either multi-view images or point clouds as input. State-of-the-art image-based methods first learn a 3D edge point cloud then fit 3D edges to it. The edge point cloud is obtained by learning a 3D neural implicit edge field from which the 3D edge points are sampled on a specific level set (0 or 1). However, such methods present two important drawbacks: i) it is not realistic to sample points on exact level sets due to float imprecision and training inaccuracies. Instead, they are sampled within a range of levels so the points do not lie accurately on the 3D edges and require further processing. ii) Such implicit representations are computationally expensive and require long training times. In this paper, we address these two limitations and propose a 3D edge mapping that is simpler, more efficient, and preserves accuracy. Our method learns explicitly the 3D edge points and their edge direction hence bypassing the need for point sampling. It casts a 3D edge point as the center of a 3D Gaussian and the edge direction as the principal axis of the Gaussian. Such a representation has the advantage of being not only geometrically meaningful but also compatible with the efficient training optimization defined in Gaussian Splatting. Results show that the proposed method produces edges as accurate and complete as the state-of-the-art while being an order of magnitude faster. Code is released at https://github.com/kunalchelani/EdgeGaussians.