Z-Splat: Z-Axis Gaussian Splatting for Camera-Sonar Fusion

📄 arXiv: 2404.04687v2 📥 PDF

作者: Ziyuan Qu, Omkar Vengurlekar, Mohamad Qadri, Kevin Zhang, Michael Kaess, Christopher Metzler, Suren Jayasuriya, Adithya Pediredla

分类: cs.CV, cs.GR, cs.LG

发布日期: 2024-04-06 (更新: 2024-07-05)


💡 一句话要点

提出Z-Splat以解决深度轴缺失锥体问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯点云 深度重建 声纳融合 计算机视觉 3D重建 自动驾驶 环境感知

📋 核心要点

  1. 现有的高斯点云重建方法在深度轴上存在缺失锥体问题,导致重建效果不佳。
  2. 本文提出利用声纳的瞬态数据来解决缺失锥体问题,并扩展高斯点云算法以融合RGB相机和声纳数据。
  3. 实验结果显示,所提融合算法在新视图合成上提高了5 dB的PSNR,在3D几何重建上降低了60%的Chamfer距离。

📝 摘要(中文)

可微分的3D高斯点云(GS)技术在计算机视觉和图形学中逐渐成为重建3D场景的重要方法。GS通过一组具有不同不透明度的3D高斯分布来表示场景,并利用高效的点云操作和解析导数来计算场景图像的3D高斯参数。然而,在许多实际成像场景中,如水下成像和室内导航,360度视角图像的捕获是不可能或不切实际的,这导致GS算法在深度轴上存在“缺失锥体”问题。本文展示了利用声纳的瞬态数据可以解决这一问题,通过在深度轴上采样高频数据,扩展了高斯点云算法,并提出了同时利用RGB相机数据和声纳数据的融合算法。通过模拟、仿真和硬件实验,结果表明所提出的融合算法在新视图合成和3D几何重建方面显著提升了性能。

🔬 方法详解

问题定义:本文旨在解决现有高斯点云重建方法在深度轴上因缺失锥体而导致的重建质量下降的问题。现有方法在某些成像场景中无法有效捕获360度视角数据,影响了重建效果。

核心思路:通过引入声纳的瞬态数据,本文提出了一种新的数据采样方式,能够在深度轴上获取高频信息,从而有效缓解缺失锥体问题。该方法结合RGB相机数据和声纳数据,增强了重建的准确性。

技术框架:整体架构包括数据采集模块、数据融合模块和重建模块。首先,通过声纳和RGB相机同时采集数据,然后在融合模块中处理这两种数据,最后在重建模块中生成3D场景。

关键创新:本文的主要创新在于将声纳数据与RGB图像数据进行融合,提出了一种新的高斯点云重建方法,显著提高了在深度轴上的重建效果。这一方法与传统的单一数据源重建方法有本质区别。

关键设计:在算法设计中,设置了适当的损失函数以平衡RGB和声纳数据的贡献,并优化了高斯参数的计算过程。具体的网络结构和参数设置在实验中经过多次调优,以确保最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的融合算法在新视图合成中实现了5 dB的PSNR提升,并在3D几何重建中降低了60%的Chamfer距离,显著优于传统方法,展示了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括水下探测、室内导航和自动驾驶等场景。通过有效融合声纳和视觉数据,能够在复杂环境中实现更高质量的3D重建,提升机器人和自动化系统的环境感知能力,具有重要的实际价值和未来影响。

📄 摘要(原文)

Differentiable 3D-Gaussian splatting (GS) is emerging as a prominent technique in computer vision and graphics for reconstructing 3D scenes. GS represents a scene as a set of 3D Gaussians with varying opacities and employs a computationally efficient splatting operation along with analytical derivatives to compute the 3D Gaussian parameters given scene images captured from various viewpoints. Unfortunately, capturing surround view ($360^{\circ}$ viewpoint) images is impossible or impractical in many real-world imaging scenarios, including underwater imaging, rooms inside a building, and autonomous navigation. In these restricted baseline imaging scenarios, the GS algorithm suffers from a well-known 'missing cone' problem, which results in poor reconstruction along the depth axis. In this manuscript, we demonstrate that using transient data (from sonars) allows us to address the missing cone problem by sampling high-frequency data along the depth axis. We extend the Gaussian splatting algorithms for two commonly used sonars and propose fusion algorithms that simultaneously utilize RGB camera data and sonar data. Through simulations, emulations, and hardware experiments across various imaging scenarios, we show that the proposed fusion algorithms lead to significantly better novel view synthesis (5 dB improvement in PSNR) and 3D geometry reconstruction (60% lower Chamfer distance).