EGSRAL: An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene

📄 arXiv: 2412.15550v1 📥 PDF

作者: Yixiong Huo, Guangfeng Jiang, Hongyang Wei, Ji Liu, Song Zhang, Han Liu, Xingliang Huang, Mingjie Lu, Jinzhang Peng, Dong Li, Lu Tian, Emad Barsoum

分类: cs.CV

发布日期: 2024-12-20

备注: AAAI2025

🔗 代码/项目: GITHUB


💡 一句话要点

EGSRAL:增强的基于3D高斯溅射的大规模自动标注驾驶场景渲染器

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 驾驶场景重建 自动标注 大规模场景 自动驾驶 新视角合成 动态场景建模

📋 核心要点

  1. 现有基于3D GS的驾驶场景重建方法依赖深度图、3D框、运动物体轨迹等多种数据类型,且缺乏合成图像的标注。
  2. EGSRAL通过增强3D GS对动态和静态场景的建模能力,并引入自动标注适配器,仅使用训练图像即可完成重建和标注。
  3. 实验表明,EGSRAL在nuScenes等数据集上取得了SOTA性能,且自动标注显著提升了2D/3D检测任务的性能。

📝 摘要(中文)

本文提出EGSRAL,一种基于3D高斯溅射(3D GS)的方法,仅依赖训练图像,无需额外标注,用于大规模驾驶场景重建。EGSRAL增强了3D GS对动态物体和静态背景的建模能力,并引入了一种新的自动标注适配器,基于现有标注生成相应的标注。此外,针对大规模复杂场景渲染中的透视问题,提出了一种分组策略。该方法在多个数据集上实现了最先进的性能,无需任何额外标注。例如,在nuScenes数据集上,PSNR指标达到29.04。自动标注显著提高了2D/3D检测任务的性能。

🔬 方法详解

问题定义:现有基于3D高斯溅射的驾驶场景重建方法通常需要额外的标注信息,例如深度图、3D bounding box或者运动物体的轨迹。这些额外的标注增加了数据获取和处理的复杂性。此外,合成图像缺乏标注,限制了其在下游任务中的直接应用。因此,如何在没有额外标注的情况下,利用3D高斯溅射重建大规模驾驶场景,并自动生成标注,是一个亟待解决的问题。

核心思路:EGSRAL的核心思路是增强3D高斯溅射对动态物体和静态背景的建模能力,并引入一个自动标注适配器,从而仅使用训练图像即可完成场景重建和标注。通过分组策略解决大规模场景的透视问题,使得模型能够更好地处理远距离物体的渲染。

技术框架:EGSRAL的整体框架包括三个主要部分:增强的3D高斯溅射渲染器、自动标注适配器和分组策略。首先,使用增强的3D高斯溅射渲染器对驾驶场景进行重建,该渲染器能够同时建模动态物体和静态背景。然后,通过自动标注适配器,基于现有的标注信息,为合成图像生成相应的标注。最后,采用分组策略,将大规模场景划分为多个小组,分别进行渲染,以解决透视问题。

关键创新:EGSRAL的关键创新在于以下几个方面:1) 增强了3D高斯溅射对动态和静态场景的建模能力,使其能够更好地处理复杂的驾驶场景。2) 引入了自动标注适配器,实现了在没有额外标注的情况下,自动生成合成图像的标注。3) 提出了分组策略,解决了大规模场景渲染中的透视问题。与现有方法相比,EGSRAL无需额外的标注信息,且能够生成带有标注的合成图像。

关键设计:EGSRAL的关键设计包括:1) 动态和静态场景的建模方式,可能采用了不同的高斯参数更新策略或损失函数。2) 自动标注适配器的具体实现方式,例如,如何将现有标注信息映射到合成图像上。3) 分组策略的具体实现方式,例如,如何划分小组,以及如何处理小组之间的边界问题。具体的参数设置、损失函数和网络结构等细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EGSRAL在nuScenes数据集上取得了显著的性能提升,PSNR指标达到了29.04,超过了现有方法。此外,实验表明,EGSRAL的自动标注功能显著提高了2D/3D检测任务的性能。这些结果表明,EGSRAL是一种有效的大规模驾驶场景重建和标注方法。

🎯 应用场景

EGSRAL在自动驾驶领域具有广泛的应用前景。它可以用于生成大规模、高质量的驾驶场景数据集,用于训练和评估自动驾驶算法。此外,自动标注功能可以显著降低数据标注的成本,加速自动驾驶技术的研发进程。该研究还可以应用于虚拟现实、游戏开发等领域,用于生成逼真的三维场景。

📄 摘要(原文)

3D Gaussian Splatting (3D GS) has gained popularity due to its faster rendering speed and high-quality novel view synthesis. Some researchers have explored using 3D GS for reconstructing driving scenes. However, these methods often rely on various data types, such as depth maps, 3D boxes, and trajectories of moving objects. Additionally, the lack of annotations for synthesized images limits their direct application in downstream tasks. To address these issues, we propose EGSRAL, a 3D GS-based method that relies solely on training images without extra annotations. EGSRAL enhances 3D GS's capability to model both dynamic objects and static backgrounds and introduces a novel adaptor for auto labeling, generating corresponding annotations based on existing annotations. We also propose a grouping strategy for vanilla 3D GS to address perspective issues in rendering large-scale, complex scenes. Our method achieves state-of-the-art performance on multiple datasets without any extra annotation. For example, the PSNR metric reaches 29.04 on the nuScenes dataset. Moreover, our automated labeling can significantly improve the performance of 2D/3D detection tasks. Code is available at https://github.com/jiangxb98/EGSRAL.