BEV-GS: Feed-forward Gaussian Splatting in Bird's-Eye-View for Road Reconstruction
作者: Wenhua Wu, Tong Zhao, Chensheng Peng, Lei Yang, Yintao Wei, Zhe Liu, Hesheng Wang
分类: cs.GR, cs.RO
发布日期: 2025-04-16
🔗 代码/项目: GITHUB
💡 一句话要点
提出BEV-GS,一种基于鸟瞰图高斯溅射的道路重建实时单帧前馈方法。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 道路重建 高斯溅射 鸟瞰图 单帧图像 实时渲染
📋 核心要点
- 现有NeRF和高斯溅射方法在道路重建中依赖多视角图像,且优化耗时,限制了实时性。
- BEV-GS通过鸟瞰图视角预测几何和纹理参数,并使用网格高斯表示道路表面,实现单帧实时重建。
- 在RSRD数据集上,BEV-GS将道路高程误差降低至1.73厘米,新视角合成PSNR达到28.36分贝。
📝 摘要(中文)
道路表面是车辆或机器人与环境接触的唯一媒介。重建道路表面对于无人驾驶车辆和移动机器人至关重要。最近关于神经辐射场(NeRF)和高斯溅射(GS)的研究在场景重建方面取得了显著成果。然而,它们通常依赖于多视角图像输入,并且需要较长的优化时间。本文提出BEV-GS,一种基于前馈高斯溅射的实时单帧道路表面重建方法。BEV-GS由预测模块和渲染模块组成。预测模块遵循鸟瞰图范式,引入了独立的几何和纹理网络。几何和纹理参数直接从单帧图像估计,避免了逐场景优化。在渲染模块中,我们利用网格高斯进行道路表面表示和新视角合成,这更好地符合道路表面的特征。我们的方法在真实世界数据集RSRD上实现了最先进的性能。道路高程误差降低到1.73厘米,新视角合成的PSNR达到28.36分贝。预测和渲染的FPS分别为26和2061,从而实现了高精度和实时应用。
🔬 方法详解
问题定义:现有基于NeRF和高斯溅射的道路重建方法通常需要多视角图像作为输入,并且需要针对每个场景进行优化,导致计算量大,耗时较长,难以满足实时性要求。尤其是在无人驾驶和机器人等需要快速响应的场景中,这种局限性更加明显。因此,如何实现单帧图像的实时道路表面重建是一个亟待解决的问题。
核心思路:BEV-GS的核心思路是利用鸟瞰图(Bird's-Eye-View)视角,直接从单帧图像中预测道路的几何和纹理信息,避免了多视角图像的依赖和逐场景优化。通过将道路表面表示为网格高斯分布,可以更好地适应道路表面的特性,提高重建精度和渲染效率。这种前馈式的预测和渲染方式,使得BEV-GS能够实现实时性能。
技术框架:BEV-GS主要由两个模块组成:预测模块和渲染模块。预测模块接收单帧图像作为输入,通过几何网络和纹理网络分别预测道路表面的几何参数(如位置、法向量)和纹理参数(如颜色、透明度)。这两个网络都遵循鸟瞰图范式,直接输出BEV特征。渲染模块则利用预测模块输出的几何和纹理参数,将道路表面表示为网格高斯分布,并通过可微分的渲染过程,合成新的视角图像。
关键创新:BEV-GS的关键创新在于以下几点:1) 提出了基于鸟瞰图的单帧道路表面重建方法,避免了多视角图像的依赖和逐场景优化;2) 引入了独立的几何和纹理网络,分别预测道路表面的几何和纹理信息;3) 使用网格高斯分布来表示道路表面,更好地适应了道路表面的特性,提高了重建精度和渲染效率。与现有方法相比,BEV-GS最大的区别在于其前馈式的预测和渲染方式,实现了实时性能。
关键设计:几何网络和纹理网络均采用卷积神经网络结构,具体结构未知(原文未详细说明)。损失函数可能包含几何损失(例如,预测高程与真实高程之间的差异)和渲染损失(例如,合成图像与真实图像之间的差异)。网格高斯的参数包括位置、协方差矩阵、颜色和透明度等。这些参数的具体设置和优化方法未知(原文未详细说明)。
🖼️ 关键图片
📊 实验亮点
BEV-GS在RSRD数据集上取得了state-of-the-art的性能。道路高程误差降低到1.73厘米,表明其重建精度很高。新视角合成的PSNR达到28.36分贝,说明其渲染质量较好。预测模块的FPS为26,渲染模块的FPS为2061,证明了其具有很高的实时性。这些实验结果表明,BEV-GS是一种高精度、实时的道路表面重建方法。
🎯 应用场景
BEV-GS在无人驾驶、移动机器人、高精地图构建等领域具有广泛的应用前景。它可以为无人驾驶车辆提供实时的道路表面信息,帮助车辆进行路径规划和避障。对于移动机器人,它可以用于环境感知和导航。在高精地图构建方面,BEV-GS可以快速生成道路表面的三维模型,提高地图的构建效率和精度。未来,该技术有望应用于智慧交通、智能城市等领域。
📄 摘要(原文)
Road surface is the sole contact medium for wheels or robot feet. Reconstructing road surface is crucial for unmanned vehicles and mobile robots. Recent studies on Neural Radiance Fields (NeRF) and Gaussian Splatting (GS) have achieved remarkable results in scene reconstruction. However, they typically rely on multi-view image inputs and require prolonged optimization times. In this paper, we propose BEV-GS, a real-time single-frame road surface reconstruction method based on feed-forward Gaussian splatting. BEV-GS consists of a prediction module and a rendering module. The prediction module introduces separate geometry and texture networks following Bird's-Eye-View paradigm. Geometric and texture parameters are directly estimated from a single frame, avoiding per-scene optimization. In the rendering module, we utilize grid Gaussian for road surface representation and novel view synthesis, which better aligns with road surface characteristics. Our method achieves state-of-the-art performance on the real-world dataset RSRD. The road elevation error reduces to 1.73 cm, and the PSNR of novel view synthesis reaches 28.36 dB. The prediction and rendering FPS is 26, and 2061, respectively, enabling high-accuracy and real-time applications. The code will be available at: \href{https://github.com/cat-wwh/BEV-GS}{\texttt{https://github.com/cat-wwh/BEV-GS}}