CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving
作者: Zhijian Qiao, Zehuan Yu, Tong Li, Chih-Chung Chou, Wenchao Ding, Shaojie Shen
分类: cs.CV, cs.RO
发布日期: 2025-12-03
💡 一句话要点
提出CSMapping以解决低成本传感器噪声影响的地图构建问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 众包地图构建 语义映射 拓扑映射 潜在扩散模型 自动驾驶 高斯基函数重参数化 约束MAP优化
📋 核心要点
- 现有众包地图构建方法在面对低成本传感器噪声时,难以保证地图质量的提升。
- CSMapping通过训练潜在扩散模型,结合约束MAP优化,解决了噪声影响下的地图构建问题。
- 在多个数据集上的实验表明,CSMapping在语义和拓扑映射性能上达到了最先进水平,具有良好的扩展性。
📝 摘要(中文)
众包技术使得自主驾驶地图构建具备可扩展性,但低成本传感器的噪声限制了数据量增加时质量的提升。本文提出CSMapping系统,能够生成准确的语义地图和拓扑道路中心线,其质量随着众包数据的增加而持续提升。在语义映射方面,作者训练了一个潜在扩散模型,利用高清地图学习真实世界地图结构的生成先验,且无需成对的众包/高清地图监督。该先验通过潜在空间中的约束MAP优化结合,确保对严重噪声的鲁棒性和未观测区域的合理补全。实验结果表明,该方法在nuScenes、Argoverse 2和一个大型专有数据集上达到了最先进的语义和拓扑映射性能。
🔬 方法详解
问题定义:本文旨在解决低成本传感器噪声对众包地图构建质量的影响,现有方法在数据量增加时难以提升地图的准确性和可靠性。
核心思路:CSMapping通过训练潜在扩散模型,学习真实世界地图结构的生成先验,并结合约束MAP优化,确保在噪声环境下的鲁棒性和合理补全。
技术框架:系统主要包括潜在扩散模型训练、向量化映射模块初始化、扩散反演、优化过程(高效的高斯基函数重参数化、投影梯度下降和潜在空间因子图)等模块。
关键创新:最重要的创新在于引入了潜在扩散模型和约束MAP优化的结合,使得系统在面对严重噪声时依然能够保持高质量的地图生成。
关键设计:在模型训练中,采用了无监督学习策略,并在优化过程中使用了多起始点的投影梯度下降,确保全局一致性。
🖼️ 关键图片
📊 实验亮点
在nuScenes、Argoverse 2和一个大型专有数据集上的实验结果显示,CSMapping在语义和拓扑映射性能上达到了最先进的水平,具体性能提升幅度超过现有基线,展现出良好的扩展性和鲁棒性。
🎯 应用场景
CSMapping的研究成果在自动驾驶领域具有广泛的应用潜力,能够为城市交通管理、自动驾驶车辆导航和环境感知等提供高质量的地图支持。随着众包数据的不断积累,该系统能够持续优化地图质量,提升自动驾驶的安全性和可靠性。
📄 摘要(原文)
Crowdsourcing enables scalable autonomous driving map construction, but low-cost sensor noise hinders quality from improving with data volume. We propose CSMapping, a system that produces accurate semantic maps and topological road centerlines whose quality consistently increases with more crowdsourced data. For semantic mapping, we train a latent diffusion model on HD maps (optionally conditioned on SD maps) to learn a generative prior of real-world map structure, without requiring paired crowdsourced/HD-map supervision. This prior is incorporated via constrained MAP optimization in latent space, ensuring robustness to severe noise and plausible completion in unobserved areas. Initialization uses a robust vectorized mapping module followed by diffusion inversion; optimization employs efficient Gaussian-basis reparameterization, projected gradient descent zobracket multi-start, and latent-space factor-graph for global consistency. For topological mapping, we apply confidence-weighted k-medoids clustering and kinematic refinement to trajectories, yielding smooth, human-like centerlines robust to trajectory variation. Experiments on nuScenes, Argoverse 2, and a large proprietary dataset achieve state-of-the-art semantic and topological mapping performance, with thorough ablation and scalability studies.