MapGS: Generalizable Pretraining and Data Augmentation for Online Mapping via Novel View Synthesis
作者: Hengyuan Zhang, David Paz, Yuliang Guo, Xinyu Huang, Henrik I. Christensen, Liu Ren
分类: cs.CV, cs.RO
发布日期: 2025-01-11
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MapGS:利用新视角合成实现可泛化的在线地图构建预训练与数据增强
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 在线地图构建 新视角合成 高斯溅射 数据增强 跨传感器泛化 自动驾驶 预训练
📋 核心要点
- 现有在线地图构建方法在跨传感器配置泛化方面存在不足,限制了其在不同车辆平台上的应用。
- 该论文提出利用高斯溅射进行场景重建和新视角合成,生成目标传感器配置下的数据,用于增强训练集。
- 实验表明,该方法能够显著提升在线地图构建模型的性能,加速收敛,并减少对大量标注数据的依赖。
📝 摘要(中文)
在线地图构建减少了自动驾驶车辆对高精地图的依赖,显著增强了可扩展性。然而,现有方法常常忽略跨传感器配置的泛化能力,导致模型在具有不同相机内参和外参的车辆上部署时性能下降。随着新视角合成方法的快速发展,我们研究了这些技术在多大程度上可以用于解决传感器配置泛化的挑战。我们提出了一个新颖的框架,利用高斯溅射重建场景,并在目标传感器配置中渲染相机图像。目标配置传感器数据以及映射到目标配置的标签被用于训练在线地图构建模型。在我们提出的框架中,在nuScenes和Argoverse 2数据集上,通过有效的数据集增强,性能提高了18%,实现了更快的收敛和高效的训练,并且仅使用25%的原始训练数据时就超过了最先进的性能。这实现了数据重用,并减少了对费力的数据标注的需求。
🔬 方法详解
问题定义:现有在线地图构建方法在面对不同车辆的传感器配置(相机内参和外参)时,泛化能力较差。这意味着模型在一个车辆上训练好后,很难直接应用到另一个具有不同相机配置的车辆上,需要重新收集和标注数据进行训练,成本高昂。
核心思路:利用新视角合成技术,特别是高斯溅射(Gaussian Splatting),从已有的数据中生成目标传感器配置下的图像和对应的标签。这样,就可以通过数据增强的方式,提升模型在不同传感器配置下的泛化能力,减少对大量真实数据的依赖。
技术框架:该框架主要包含以下几个阶段:1) 利用已有数据集(例如nuScenes或Argoverse 2)中的图像和相机参数,使用高斯溅射重建三维场景。2) 在重建的三维场景中,根据目标车辆的传感器配置(相机内参和外参),渲染出新的图像。3) 将原始图像的标签(例如语义分割或目标检测结果)映射到新渲染的图像上。4) 使用原始数据和新生成的数据一起训练在线地图构建模型。
关键创新:该论文的关键创新在于将新视角合成技术应用于在线地图构建的数据增强,从而解决了跨传感器配置的泛化问题。与传统的图像增强方法(例如旋转、缩放)不同,新视角合成能够生成更逼真的、符合目标传感器配置的图像,从而更有效地提升模型的泛化能力。
关键设计:论文使用了高斯溅射作为新视角合成的核心技术,因为它能够高效地重建和渲染场景,并且具有较好的图像质量。在标签映射方面,需要根据相机参数的变化,将原始图像的标签准确地投影到新渲染的图像上。损失函数方面,可以使用标准的监督学习损失函数,例如交叉熵损失或Smooth L1损失。
🖼️ 关键图片
📊 实验亮点
在nuScenes和Argoverse 2数据集上的实验表明,该方法能够显著提升在线地图构建模型的性能,通过有效的数据集增强,性能提高了18%,实现了更快的收敛和高效的训练,并且仅使用25%的原始训练数据时就超过了最先进的性能。这表明该方法能够有效地利用少量数据,降低数据标注成本。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、机器人导航等领域。通过新视角合成进行数据增强,可以降低对大量真实数据的依赖,加速模型的开发和部署。尤其在传感器配置多样化的场景下,该方法能够显著提升模型的泛化能力,降低重新训练的成本,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Online mapping reduces the reliance of autonomous vehicles on high-definition (HD) maps, significantly enhancing scalability. However, recent advancements often overlook cross-sensor configuration generalization, leading to performance degradation when models are deployed on vehicles with different camera intrinsics and extrinsics. With the rapid evolution of novel view synthesis methods, we investigate the extent to which these techniques can be leveraged to address the sensor configuration generalization challenge. We propose a novel framework leveraging Gaussian splatting to reconstruct scenes and render camera images in target sensor configurations. The target config sensor data, along with labels mapped to the target config, are used to train online mapping models. Our proposed framework on the nuScenes and Argoverse 2 datasets demonstrates a performance improvement of 18% through effective dataset augmentation, achieves faster convergence and efficient training, and exceeds state-of-the-art performance when using only 25% of the original training data. This enables data reuse and reduces the need for laborious data labeling. Project page at https://henryzhangzhy.github.io/mapgs.