E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction

📄 arXiv: 2603.14684v1 📥 PDF

作者: Yunsoo Kim, Changki Sung, Dasol Hong, Hyun Myung

分类: cs.CV

发布日期: 2026-03-16

备注: 10 pages, 6 figures, accepted to CVPR 2026


💡 一句话要点

E2EGS:基于事件流到边缘高斯溅射的无位姿三维重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 三维重建 无位姿 高斯溅射 边缘提取

📋 核心要点

  1. 现有NeRF和3DGS方法依赖高质量RGB图像和精确位姿,在快速运动或恶劣光照下表现不佳,限制了其应用。
  2. E2EGS提出了一种仅使用事件流的无位姿三维重建框架,核心思想是利用边缘信息作为结构线索。
  3. 通过时空相干性分析提取边缘,并将其用于高斯初始化、跟踪和优化,实验表明重建质量和轨迹精度均有提升。

📝 摘要(中文)

神经辐射场(NeRF)和三维高斯溅射(3DGS)的出现推动了新视角合成(NVS)的发展。然而,这些方法需要高质量的RGB输入和准确的对应位姿,限制了在快速相机运动或不利光照等真实条件下的鲁棒性。事件相机以高时间分辨率和宽动态范围捕获每个像素的亮度变化,能够精确感知动态场景,并提供了一种有前景的解决方案。然而,现有的基于事件的NVS方法要么假设已知位姿,要么依赖于受初始观测限制的深度估计模型,无法在相机遍历先前未见区域时进行泛化。我们提出了E2EGS,一个仅在事件流上运行的无位姿框架。我们的关键见解是,边缘信息提供了丰富的结构线索,这对于准确的轨迹估计和高质量的NVS至关重要。为了从嘈杂的事件流中提取边缘,我们利用了边缘和非边缘区域的不同时空特征。事件相机的运动会在边缘上产生一致的事件,而非边缘区域则产生稀疏的噪声。我们通过基于补丁的时间相干性分析来利用这一点,该分析测量局部方差以提取边缘,同时稳健地抑制噪声。提取的边缘引导结构感知高斯初始化,并在初始化、跟踪和捆绑调整中启用边缘加权损失。在合成和真实数据集上的大量实验表明,E2EGS实现了卓越的重建质量和轨迹精度,为基于事件的三维重建建立了一个完全无位姿的范例。

🔬 方法详解

问题定义:现有基于事件相机的新视角合成方法通常需要已知的相机位姿,或者依赖于深度估计模型,这些模型在相机探索新的未见区域时泛化能力不足。因此,如何在没有位姿信息的情况下,仅利用事件流实现高质量的三维重建是一个关键问题。

核心思路:论文的核心思路是利用事件流中的边缘信息作为结构线索,指导三维重建过程。边缘信息对相机运动和场景结构具有很强的指示作用,通过有效地提取和利用边缘信息,可以实现无位姿的三维重建。

技术框架:E2EGS框架主要包含以下几个阶段:1) 边缘提取:通过分析事件流的时空相干性,区分边缘区域和非边缘区域,提取出鲁棒的边缘信息。2) 结构感知高斯初始化:利用提取的边缘信息,初始化三维高斯分布,使其能够更好地反映场景的结构。3) 边缘加权优化:在跟踪和捆绑调整过程中,使用边缘加权损失函数,引导高斯分布的优化,提高重建质量。

关键创新:该论文的关键创新在于提出了一种完全无位姿的基于事件流的三维重建框架。通过利用事件流中的边缘信息,实现了在没有位姿信息的情况下进行高质量的三维重建。此外,提出的时空相干性分析方法能够有效地从噪声事件流中提取边缘信息。

关键设计:在边缘提取阶段,论文使用基于补丁的时间相干性分析,通过计算局部方差来区分边缘和非边缘区域。在优化阶段,使用边缘加权损失函数,对边缘区域的高斯分布赋予更高的权重,从而提高重建精度。具体损失函数的设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E2EGS在合成和真实数据集上进行了广泛的实验,结果表明其在重建质量和轨迹精度方面均优于现有方法。具体性能提升数据未知,但论文强调E2EGS实现了完全无位姿的基于事件的三维重建,这是一个重要的突破。实验结果验证了利用边缘信息进行无位姿三维重建的有效性。

🎯 应用场景

E2EGS在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。在这些场景中,相机可能面临快速运动、光照变化等挑战,传统的基于RGB图像的三维重建方法可能失效。E2EGS仅依赖于事件流,具有更高的鲁棒性和适应性,可以为这些应用提供可靠的三维环境感知能力。未来,该技术有望应用于无人机自主飞行、移动机器人SLAM等领域。

📄 摘要(原文)

The emergence of neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS) has advanced novel view synthesis (NVS). These methods, however, require high-quality RGB inputs and accurate corresponding poses, limiting robustness under real-world conditions such as fast camera motion or adverse lighting. Event cameras, which capture brightness changes at each pixel with high temporal resolution and wide dynamic range, enable precise sensing of dynamic scenes and offer a promising solution. However, existing event-based NVS methods either assume known poses or rely on depth estimation models that are bounded by their initial observations, failing to generalize as the camera traverses previously unseen regions. We present E2EGS, a pose-free framework operating solely on event streams. Our key insight is that edge information provides rich structural cues essential for accurate trajectory estimation and high-quality NVS. To extract edges from noisy event streams, we exploit the distinct spatio-temporal characteristics of edges and non-edge regions. The event camera's movement induces consistent events along edges, while non-edge regions produce sparse noise. We leverage this through a patch-based temporal coherence analysis that measures local variance to extract edges while robustly suppressing noise. The extracted edges guide structure-aware Gaussian initialization and enable edge-weighted losses throughout initialization, tracking, and bundle adjustment. Extensive experiments on both synthetic and real datasets demonstrate that E2EGS achieves superior reconstruction quality and trajectory accuracy, establishing a fully pose-free paradigm for event-based 3D reconstruction.