MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction
作者: Jing Yang, Minyue Jiang, Sen Yang, Xiao Tan, Yingying Li, Errui Ding, Hanli Wang, Jingdong Wang
分类: cs.CV
发布日期: 2024-10-10
期刊: https://www.iclr.cc/virtual/2025/poster/30420
💡 一句话要点
MGMapNet:用于端到端矢量化高清地图构建的多粒度表示学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 高清地图构建 矢量化地图 多粒度表示学习 自动驾驶 鸟瞰图 实例分割 点云处理
📋 核心要点
- 现有矢量化高清地图构建方法侧重于点级或实例级表示,忽略了两者之间的内在联系。
- MGMapNet采用多粒度表示,融合实例级和点级查询,以更全面地建模地图元素。
- 实验表明,MGMapNet在nuScenes和Argoverse2数据集上均超越了现有最佳方法MapTRv2。
📝 摘要(中文)
矢量化高清地图的构建通常需要捕获地图元素的类别和几何信息。目前最先进的方法通常只采用点级或实例级表示,忽略了点和实例之间强大的内在关系。本文提出了一种简单而有效的框架MGMapNet(多粒度地图网络),用多粒度表示来建模地图元素,集成了粗粒度的实例级查询和细粒度的点级查询。具体来说,这两种粒度的查询是通过提出的多粒度聚合器从多尺度鸟瞰图(BEV)特征中生成的。在该模块中,实例级查询聚合实例覆盖的整个范围内的特征,而点级查询在本地聚合特征。此外,还设计了一个点实例交互模块,以鼓励实例级和点级查询之间的信息交换。实验结果表明,所提出的MGMapNet实现了最先进的性能,在nuScenes上超过MapTRv2 5.3 mAP,在Argoverse2上超过4.4 mAP。
🔬 方法详解
问题定义:现有矢量化高清地图构建方法主要采用点级或实例级表示,未能充分利用点和实例之间的内在关联性。这种割裂的表示方式限制了模型对地图元素的全面理解,导致精度瓶颈。
核心思路:MGMapNet的核心在于同时利用粗粒度的实例级信息和细粒度的点级信息,通过多粒度表示来更全面地建模地图元素。通过实例级查询捕获全局上下文,通过点级查询关注局部细节,并设计模块促进二者交互,从而提升地图构建的准确性和完整性。
技术框架:MGMapNet的整体框架包括以下几个主要模块:1) 多尺度BEV特征提取:从鸟瞰图视角提取多尺度特征;2) 多粒度聚合器:生成实例级和点级查询,并分别聚合对应的特征;3) 点实例交互模块:促进实例级和点级查询之间的信息交换;4) 地图元素预测:基于融合后的特征预测地图元素的类别和几何信息。
关键创新:MGMapNet的关键创新在于提出了多粒度表示学习方法,将实例级和点级信息有效融合。多粒度聚合器能够根据不同粒度的查询自适应地聚合特征,点实例交互模块则进一步增强了两种粒度信息之间的关联。这种多粒度融合的方式能够更全面地理解地图元素,从而提升地图构建的性能。
关键设计:多粒度聚合器采用注意力机制来聚合特征,实例级查询关注整个实例范围内的特征,点级查询关注局部邻域内的特征。点实例交互模块采用交叉注意力机制,允许实例级查询关注点级特征,反之亦然。损失函数包括分类损失和几何损失,用于优化地图元素的类别和几何形状。
🖼️ 关键图片
📊 实验亮点
MGMapNet在nuScenes和Argoverse2数据集上取得了显著的性能提升,分别超越了当前最佳方法MapTRv2 5.3 mAP和4.4 mAP。这些结果表明,MGMapNet提出的多粒度表示学习方法能够有效提升矢量化高清地图构建的精度和完整性,具有很强的竞争力。
🎯 应用场景
MGMapNet在自动驾驶领域具有重要的应用价值,可以用于构建高精度地图,为车辆提供准确的环境感知信息。此外,该方法还可以应用于机器人导航、城市规划等领域,为相关应用提供高质量的地图数据。未来,该研究有望推动自动驾驶技术的进一步发展,并促进智慧城市的建设。
📄 摘要(原文)
The construction of Vectorized High-Definition (HD) map typically requires capturing both category and geometry information of map elements. Current state-of-the-art methods often adopt solely either point-level or instance-level representation, overlooking the strong intrinsic relationships between points and instances. In this work, we propose a simple yet efficient framework named MGMapNet (Multi-Granularity Map Network) to model map element with a multi-granularity representation, integrating both coarse-grained instance-level and fine-grained point-level queries. Specifically, these two granularities of queries are generated from the multi-scale bird's eye view (BEV) features using a proposed Multi-Granularity Aggregator. In this module, instance-level query aggregates features over the entire scope covered by an instance, and the point-level query aggregates features locally. Furthermore, a Point Instance Interaction module is designed to encourage information exchange between instance-level and point-level queries. Experimental results demonstrate that the proposed MGMapNet achieves state-of-the-art performance, surpassing MapTRv2 by 5.3 mAP on nuScenes and 4.4 mAP on Argoverse2 respectively.