DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction
作者: Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang
分类: cs.CV, cs.RO, eess.IV
发布日期: 2024-05-09 (更新: 2024-08-25)
备注: Accepted to IEEE Transactions on Intelligent Transportation Systems (T-ITS). The source code is available at https://github.com/lynn-yu/DTCLMapper
🔗 代码/项目: GITHUB
💡 一句话要点
DTCLMapper:用于矢量化高清地图构建的双重时序一致性学习方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 矢量化高清地图 时序一致性学习 自动驾驶 实例分割 对比学习
📋 核心要点
- 现有方法在融合时序信息构建矢量化高清地图时,容易产生特征冗余,影响地图构建质量。
- DTCLMapper通过双流时序一致性学习,分别在实例嵌入和几何地图层面进行时序一致性约束,提升地图构建精度。
- 在nuScenes和Argoverse数据集上,DTCLMapper的mAP分别达到61.9%和65.1%,超越了现有最佳方法。
📝 摘要(中文)
本文提出了一种名为DTCLMapper的新方法,用于矢量化高清地图构建,旨在解决时序信息融合过程中特征冗余的问题。该方法关注时序实例一致性和时序地图一致性学习,利用双流时序一致性学习模块,结合实例嵌入和几何地图。在实例嵌入方面,集成了时序实例一致性学习(ICL),确保矢量点和实例特征的一致性,并采用矢量化点预选模块提高回归效率。通过对比学习,基于位置和语义信息选择正负样本,实现时序一致性。在几何映射方面,引入了自监督学习的地图一致性学习(MCL),增强了模型泛化能力。在nuScenes和Argoverse数据集上的实验表明,DTCLMapper达到了最先进的性能,mAP分别达到61.9%和65.1%。
🔬 方法详解
问题定义:现有矢量化高清地图构建方法在融合时序信息时,容易不加区分地融合所有信息,导致特征冗余,降低了地图构建的准确性和效率。尤其是在复杂的驾驶场景中,冗余信息会干扰模型对关键元素的识别和定位。
核心思路:DTCLMapper的核心思路是分别在实例级别和地图级别上进行时序一致性学习,从而更有效地利用时序信息。通过实例一致性学习,确保同一实例在不同时刻的特征表示一致;通过地图一致性学习,保证地图在时序上的全局结构一致性。这种双重约束能够减少特征冗余,提高地图构建的精度和鲁棒性。
技术框架:DTCLMapper采用双流结构,包含实例嵌入流和几何地图流。实例嵌入流负责提取和对齐不同时刻同一实例的特征,包含矢量化点预选模块和实例一致性学习模块。几何地图流则关注地图的全局结构,通过地图一致性学习模块进行自监督学习。两个流的信息最终融合,用于生成矢量化高清地图。
关键创新:DTCLMapper的关键创新在于双重时序一致性学习框架。它将时序一致性学习分解为实例级别和地图级别,分别进行约束,从而更有效地利用时序信息。此外,矢量化点预选模块能够提高矢量点回归的效率,减少计算量。
关键设计:在实例一致性学习中,采用了对比学习损失,通过位置和语义信息选择正负样本,保证同一实例在不同时刻的特征表示尽可能接近,不同实例的特征表示尽可能远离。在地图一致性学习中,采用了自监督学习的方式,通过预测地图的全局结构来约束模型的学习,增强模型的泛化能力。矢量化点预选模块通过筛选置信度高的点来减少后续计算量。
🖼️ 关键图片
📊 实验亮点
DTCLMapper在nuScenes和Argoverse数据集上取得了显著的性能提升。在nuScenes数据集上,mAP达到了61.9%,超过了现有最佳方法。在Argoverse数据集上,mAP达到了65.1%,同样取得了领先水平。这些结果表明,DTCLMapper在矢量化高清地图构建方面具有很强的竞争力。
🎯 应用场景
DTCLMapper可应用于自动驾驶、高精地图构建、智能交通等领域。通过提高矢量化高清地图的构建精度和效率,可以提升自动驾驶系统的感知能力和决策水平,为车辆提供更安全可靠的导航服务。此外,该技术还可以用于城市规划、交通管理等领域,为智慧城市的建设提供数据支持。
📄 摘要(原文)
Temporal information plays a pivotal role in Bird's-Eye-View (BEV) driving scene understanding, which can alleviate the visual information sparsity. However, the indiscriminate temporal fusion method will cause the barrier of feature redundancy when constructing vectorized High-Definition (HD) maps. In this paper, we revisit the temporal fusion of vectorized HD maps, focusing on temporal instance consistency and temporal map consistency learning. To improve the representation of instances in single-frame maps, we introduce a novel method, DTCLMapper. This approach uses a dual-stream temporal consistency learning module that combines instance embedding with geometry maps. In the instance embedding component, our approach integrates temporal Instance Consistency Learning (ICL), ensuring consistency from vector points and instance features aggregated from points. A vectorized points pre-selection module is employed to enhance the regression efficiency of vector points from each instance. Then aggregated instance features obtained from the vectorized points preselection module are grounded in contrastive learning to realize temporal consistency, where positive and negative samples are selected based on position and semantic information. The geometry mapping component introduces Map Consistency Learning (MCL) designed with self-supervised learning. The MCL enhances the generalization capability of our consistent learning approach by concentrating on the global location and distribution constraints of the instances. Extensive experiments on well-recognized benchmarks indicate that the proposed DTCLMapper achieves state-of-the-art performance in vectorized mapping tasks, reaching 61.9% and 65.1% mAP scores on the nuScenes and Argoverse datasets, respectively. The source code is available at https://github.com/lynn-yu/DTCLMapper.