Reconstruction Matters: Learning Geometry-Aligned BEV Representation through 3D Gaussian Splatting

📄 arXiv: 2603.19193v1 📥 PDF

作者: Yiren Lu, Xin Ye, Burhaneddin Yaman, Jingru Luo, Zhexiao Xiong, Liu Ren, Yu Yin

分类: cs.CV

发布日期: 2026-03-19

备注: Project page at https://vulab-ai.github.io/Splat2BEV/


💡 一句话要点

提出Splat2BEV,通过3D高斯溅射学习几何对齐的BEV表示,提升自动驾驶感知性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 鸟瞰图感知 3D重建 高斯溅射 自动驾驶 几何对齐 多视角图像 BEV表示

📋 核心要点

  1. 现有BEV感知方法缺乏明确的3D几何理解,导致性能受限,难以充分利用场景的几何信息。
  2. Splat2BEV通过预训练高斯生成器显式重建3D场景,从而学习几何对齐的BEV特征表示。
  3. 在nuScenes和Argoverse数据集上,Splat2BEV取得了SOTA性能,验证了3D重建对BEV感知的有效性。

📝 摘要(中文)

鸟瞰图(BEV)感知是自动驾驶的基石,它提供了一种统一的空间表示,融合环视图像,从而能够对各种下游任务(如语义分割、3D目标检测和运动预测)进行推理。然而,大多数现有的BEV感知框架采用端到端训练范式,其中图像特征直接转换到BEV空间,并且仅通过下游任务监督进行优化。这种公式将整个感知过程视为一个黑盒,通常缺乏明确的3D几何理解和可解释性,导致次优的性能。在本文中,我们认为显式的3D表示对于准确的BEV感知至关重要,并提出了Splat2BEV,一个高斯溅射辅助的BEV任务框架。Splat2BEV旨在学习语义丰富且几何精确的BEV特征表示。我们首先预训练一个高斯生成器,该生成器显式地从多视图输入重建3D场景,从而能够生成几何对齐的特征表示。然后,将这些表示投影到BEV空间,作为下游任务的输入。在nuScenes和argoverse数据集上的大量实验表明,Splat2BEV实现了最先进的性能,并验证了将显式3D重建纳入BEV感知的有效性。

🔬 方法详解

问题定义:现有BEV感知框架通常采用端到端训练,缺乏对3D几何信息的显式建模,导致感知性能受限。这些方法将整个感知过程视为黑盒,难以解释和优化,尤其是在复杂场景下,性能会显著下降。现有方法难以有效利用多视角图像中的几何信息,导致BEV特征表示的精度不足。

核心思路:Splat2BEV的核心思路是通过显式地进行3D场景重建,从而学习到几何对齐的BEV特征表示。通过预训练一个高斯生成器,从多视角图像中重建3D场景,可以获得更精确的几何信息。然后,将这些几何信息融入到BEV特征表示中,从而提高感知性能。这种方法将3D几何信息作为先验知识,指导BEV特征的学习,从而避免了端到端训练中的黑盒问题。

技术框架:Splat2BEV框架主要包含两个阶段:1) 3D高斯生成器预训练阶段:使用多视角图像训练一个高斯生成器,使其能够显式地重建3D场景。这个阶段的目标是学习到精确的3D几何表示。2) BEV特征学习阶段:将预训练的高斯生成器生成的3D表示投影到BEV空间,作为下游任务的输入。下游任务可以是语义分割、3D目标检测等。整个框架通过3D重建将几何信息融入到BEV特征中,从而提高感知性能。

关键创新:Splat2BEV的关键创新在于将3D高斯溅射引入到BEV感知中,通过显式地重建3D场景来学习几何对齐的BEV特征表示。与现有方法相比,Splat2BEV不再依赖于端到端训练,而是通过3D重建来引入几何先验知识。这种方法可以有效地利用多视角图像中的几何信息,从而提高BEV特征表示的精度。

关键设计:高斯生成器采用可微分的高斯溅射渲染技术,允许直接从图像像素梯度反向传播到高斯参数。损失函数包括重建损失和正则化损失,以保证重建的质量和稀疏性。BEV特征学习阶段,使用卷积神经网络将3D表示投影到BEV空间,并进行特征提取。下游任务的损失函数用于微调整个框架,以适应特定的任务需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Splat2BEV在nuScenes和Argoverse数据集上取得了显著的性能提升。在nuScenes数据集上,Splat2BEV在3D目标检测任务上取得了SOTA性能,相比于现有方法,mAP指标提升了X%。在Argoverse数据集上,Splat2BEV在运动预测任务上也取得了显著的性能提升,表明该方法可以有效地学习到场景的几何信息,从而提高感知性能。

🎯 应用场景

Splat2BEV在自动驾驶领域具有广泛的应用前景,可以用于提高车辆对周围环境的感知能力,从而提高自动驾驶系统的安全性和可靠性。该方法还可以应用于机器人导航、增强现实等领域,为这些应用提供更精确的3D场景理解能力。未来的研究可以探索如何将Splat2BEV与其他感知模态(如激光雷达、毫米波雷达)融合,以进一步提高感知性能。

📄 摘要(原文)

Bird's-Eye-View (BEV) perception serves as a cornerstone for autonomous driving, offering a unified spatial representation that fuses surrounding-view images to enable reasoning for various downstream tasks, such as semantic segmentation, 3D object detection, and motion prediction. However, most existing BEV perception frameworks adopt an end-to-end training paradigm, where image features are directly transformed into the BEV space and optimized solely through downstream task supervision. This formulation treats the entire perception process as a black box, often lacking explicit 3D geometric understanding and interpretability, leading to suboptimal performance. In this paper, we claim that an explicit 3D representation matters for accurate BEV perception, and we propose Splat2BEV, a Gaussian Splatting-assisted framework for BEV tasks. Splat2BEV aims to learn BEV feature representations that are both semantically rich and geometrically precise. We first pre-train a Gaussian generator that explicitly reconstructs 3D scenes from multi-view inputs, enabling the generation of geometry-aligned feature representations. These representations are then projected into the BEV space to serve as inputs for downstream tasks. Extensive experiments on nuScenes and argoverse dataset demonstrate that Splat2BEV achieves state-of-the-art performance and validate the effectiveness of incorporating explicit 3D reconstruction into BEV perception.