IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera

📄 arXiv: 2410.08107v4 📥 PDF

作者: Jian Huang, Chengrui Dong, Xuanhua Chen, Peidong Liu

分类: cs.CV

发布日期: 2024-10-10 (更新: 2025-03-25)

备注: Code Page: https://github.com/wu-cvgl/IncEventGS

🔗 代码/项目: GITHUB


💡 一句话要点

IncEventGS:单事件相机下的无位姿高斯溅射重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 高斯溅射 三维重建 SLAM 无位姿 新视角合成 事件视觉里程计

📋 核心要点

  1. 现有方法难以直接将基于帧的相机上的神经表示或3D高斯溅射技术应用于事件相机,因为事件相机的数据异步且不规则。
  2. IncEventGS利用传统SLAM的跟踪与建图范式,通过跟踪器估计相机运动,并由建图器联合优化3D场景表示和相机运动。
  3. 实验表明,IncEventGS在没有ground-truth位姿的情况下,优于NeRF方法和事件视觉里程计方法,实现了更好的性能。

📝 摘要(中文)

本文提出了一种名为IncEventGS的增量式3D高斯溅射重建算法,用于单事件相机。与基于帧的相机相比,事件相机在高时间分辨率、高动态范围、低功耗和低延迟方面具有优势。针对事件相机异步和不规则的数据捕获过程,现有基于神经表示或3D高斯溅射的研究较少。IncEventGS借鉴了传统SLAM流水线的跟踪和建图范式,以增量方式恢复3D场景表示。对于输入的事件流,跟踪器首先基于先前重建的3D-GS场景表示估计初始相机运动。然后,建图器基于跟踪器提供的运动轨迹,联合优化3D场景表示和相机运动。实验结果表明,即使没有ground-truth相机位姿,IncEventGS也能提供优于现有NeRF方法和其他相关基线的性能。此外,在相机运动估计方面,我们的方法也优于最先进的事件视觉里程计方法。

🔬 方法详解

问题定义:论文旨在解决单事件相机下的三维场景重建问题,并实现高质量的新视角合成。现有方法,如直接应用NeRF或3D高斯溅射,难以处理事件相机产生的异步、稀疏和噪声大的事件流数据。此外,缺乏准确的相机位姿信息也增加了重建的难度。

核心思路:论文的核心思路是将传统的SLAM(Simultaneous Localization and Mapping)框架与3D高斯溅射相结合,利用事件流数据进行增量式的场景重建和相机位姿估计。通过跟踪和建图两个模块的迭代优化,逐步完善场景的3D高斯表示,并提高相机位姿的准确性。

技术框架:IncEventGS包含两个主要模块:跟踪器(Tracker)和建图器(Mapper)。跟踪器接收事件流,并基于先前重建的3D高斯场景表示估计初始相机运动。建图器则利用跟踪器提供的运动轨迹,联合优化3D场景表示(高斯参数)和相机运动。整个过程是增量式的,随着新的事件数据到来,场景表示和相机位姿不断更新和完善。

关键创新:该方法的主要创新在于将3D高斯溅射技术成功应用于事件相机,并结合SLAM框架实现了无位姿的场景重建。与传统的基于帧的方法相比,该方法能够直接处理事件流数据,避免了中间的帧生成步骤,从而提高了重建效率和精度。此外,该方法还通过联合优化场景表示和相机运动,实现了更鲁棒的重建效果。

关键设计:跟踪器使用事件对齐方法估计初始相机运动。建图器通过最小化重投影误差来优化3D高斯参数和相机位姿。损失函数包括事件重投影误差和正则化项,以保证重建的平滑性和一致性。高斯参数包括位置、协方差矩阵、颜色和透明度等。协方差矩阵用于表示高斯分布的形状和方向。透明度用于控制高斯点的可见性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IncEventGS在单事件相机下的场景重建任务中取得了显著的性能提升。即使在没有ground-truth相机位姿的情况下,IncEventGS也能优于基于NeRF的方法和其他相关基线。在相机运动估计方面,IncEventGS也超越了最先进的事件视觉里程计方法。代码已开源。

🎯 应用场景

IncEventGS在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。事件相机具有高动态范围和低延迟的特性,使其在光照变化剧烈或快速运动的场景中表现出色。IncEventGS能够利用事件相机数据进行实时三维场景重建,为机器人提供准确的环境感知信息,从而实现更安全、更高效的自主导航。

📄 摘要(原文)

Implicit neural representation and explicit 3D Gaussian Splatting (3D-GS) for novel view synthesis have achieved remarkable progress with frame-based camera (e.g. RGB and RGB-D cameras) recently. Compared to frame-based camera, a novel type of bio-inspired visual sensor, i.e. event camera, has demonstrated advantages in high temporal resolution, high dynamic range, low power consumption and low latency. Due to its unique asynchronous and irregular data capturing process, limited work has been proposed to apply neural representation or 3D Gaussian splatting for an event camera. In this work, we present IncEventGS, an incremental 3D Gaussian Splatting reconstruction algorithm with a single event camera. To recover the 3D scene representation incrementally, we exploit the tracking and mapping paradigm of conventional SLAM pipelines for IncEventGS. Given the incoming event stream, the tracker firstly estimates an initial camera motion based on prior reconstructed 3D-GS scene representation. The mapper then jointly refines both the 3D scene representation and camera motion based on the previously estimated motion trajectory from the tracker. The experimental results demonstrate that IncEventGS delivers superior performance compared to prior NeRF-based methods and other related baselines, even we do not have the ground-truth camera poses. Furthermore, our method can also deliver better performance compared to state-of-the-art event visual odometry methods in terms of camera motion estimation. Code is publicly available at: https://github.com/wu-cvgl/IncEventGS.