Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting
作者: Shu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen
分类: cs.CV
发布日期: 2025-04-02 (更新: 2025-04-03)
备注: Accepted to CVPR'25. https://hcis-lab.github.io/GaussianLSS/
💡 一句话要点
GaussianLSS:基于高斯溅射的深度不确定性估计,提升BEV感知性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 鸟瞰图感知 深度不确定性估计 高斯溅射 自动驾驶 Lift-Splat-Shoot nuScenes数据集 三维场景理解
📋 核心要点
- 现有BEV感知方法缺乏对深度不确定性的建模,且计算资源消耗大,限制了其在实际场景中的应用。
- GaussianLSS通过学习深度分布的均值和方差来建模深度不确定性,并使用3D高斯分布进行特征表示。
- 实验表明,GaussianLSS在nuScenes数据集上取得了优异的性能,并在速度和内存效率方面显著优于现有方法。
📝 摘要(中文)
鸟瞰图(BEV)感知因其能够融合多视角图像并支持下游自动驾驶任务而备受关注。当前最优模型采用基于投影的方法,将BEV感知转化为查询学习,从而绕过显式的深度估计。然而,这些方法缺乏不确定性建模,且计算成本高昂,难以应用于实际场景。本文提出了GaussianLSS,一种新的不确定性感知BEV感知框架,它重新审视了基于反投影的方法,特别是Lift-Splat-Shoot(LSS)范式,并通过深度不确定性建模对其进行增强。GaussianLSS通过学习软深度均值并计算深度分布的方差来表示空间离散性,从而隐式地捕获对象范围。然后,我们将深度分布转换为3D高斯分布,并对其进行栅格化以构建具有不确定性感知的BEV特征。在nuScenes数据集上的评估表明,GaussianLSS在性能上优于基于反投影的方法。尤其是在速度方面,GaussianLSS运行速度提高了2.5倍,内存效率提高了0.3倍,同时仅有0.4%的IoU差异,性能具有竞争力。
🔬 方法详解
问题定义:现有基于投影的BEV感知方法虽然取得了不错的性能,但忽略了深度估计的不确定性,导致在复杂场景下的鲁棒性不足。此外,这些方法通常需要大量的计算资源,难以满足实时性要求。因此,如何有效地建模深度不确定性,并在保证性能的同时降低计算成本,是本文要解决的关键问题。
核心思路:本文的核心思路是重新审视基于反投影的LSS范式,并引入深度不确定性建模。通过学习深度分布的均值和方差,可以更好地表示场景中的空间信息,并提高对噪声和遮挡的鲁棒性。将深度分布转换为3D高斯分布,可以更有效地进行特征融合和表示。
技术框架:GaussianLSS框架主要包含以下几个阶段:1) 特征提取:从多视角图像中提取图像特征。2) 深度估计与不确定性建模:学习每个像素的深度均值和方差,构建深度分布。3) 3D高斯表示:将深度分布转换为3D高斯分布。4) BEV特征栅格化:将3D高斯分布栅格化到BEV平面上,生成具有不确定性感知的BEV特征。5) 下游任务:利用BEV特征进行目标检测、语义分割等任务。
关键创新:GaussianLSS的关键创新在于引入了深度不确定性建模,并使用3D高斯分布进行特征表示。与传统的LSS方法相比,GaussianLSS能够更好地处理深度估计的不确定性,提高了对复杂场景的鲁棒性。与基于投影的方法相比,GaussianLSS在速度和内存效率方面具有显著优势。
关键设计:在深度估计阶段,使用神经网络学习每个像素的深度均值和方差。深度分布可以建模为高斯分布或其他概率分布。3D高斯分布的参数包括均值、方差和协方差矩阵。BEV特征栅格化采用可微分的栅格化方法,以便进行端到端的训练。损失函数包括目标检测损失、语义分割损失等,以及用于约束深度分布的正则化项。
🖼️ 关键图片
📊 实验亮点
GaussianLSS在nuScenes数据集上取得了显著的性能提升。与基于反投影的方法相比,GaussianLSS取得了state-of-the-art的性能。与基于投影的方法相比,GaussianLSS在性能相当的情况下,速度提高了2.5倍,内存使用量减少了0.3倍,IoU差异仅为0.4%。这些结果表明,GaussianLSS在性能、速度和内存效率方面都具有显著优势。
🎯 应用场景
GaussianLSS具有广泛的应用前景,可应用于自动驾驶、机器人导航、智能交通等领域。通过提供更准确、更鲁棒的BEV感知结果,可以提高自动驾驶系统的安全性和可靠性。此外,GaussianLSS的高效性使其能够部署在资源受限的平台上,例如嵌入式系统和移动设备。
📄 摘要(原文)
Bird's-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.