SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning

📄 arXiv: 2412.15577v1 📥 PDF

作者: Yuhao Li, Jianping Li, Zhen Dong, Yuan Wang, Bisheng Yang

分类: cs.CV, cs.LG, cs.RO

发布日期: 2024-12-20

备注: Under Review


💡 一句话要点

SaliencyI2PLoc:利用显著性引导和对比学习实现图像-点云跨模态定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像定位 点云定位 跨模态融合 对比学习 显著性检测 机器人导航 全局定位

📋 核心要点

  1. 现有跨模态全局定位方法存在信息损失或特征对齐不足的问题,难以有效融合图像和点云。
  2. SaliencyI2PLoc利用显著性图引导特征聚合,并通过对比学习保持多流形空间上的特征关系一致性。
  3. 实验表明,该方法在城市场景定位中Recall@1提升37.35%,Recall@20提升18.07%,显著优于基线方法。

📝 摘要(中文)

本文提出了一种名为SaliencyI2PLoc的新型对比学习架构,用于解决GNSS拒止环境中机器人导航所需的图像到点云全局定位问题。该方法旨在克服图像和点云之间的模态差异带来的挑战。与需要模态统一或依赖人工设计的训练方案的现有方法不同,SaliencyI2PLoc将显著性图融入特征聚合,并在多流形空间上保持特征关系的一致性。该框架采用对比学习高效地实现跨模态特征映射,并设计了上下文显著性引导的局部特征聚合模块,充分利用场景中的静态信息生成更具代表性的全局特征。此外,还考虑了不同流形空间中样本之间相对关系的一致性,以增强对比学习期间的跨模态特征对齐。在城市和高速公路场景数据集上的实验结果表明了该方法的有效性和鲁棒性。在城市场景评估数据集中,Recall@1达到78.92%,Recall@20达到97.59%,与基线方法相比分别提高了37.35%和18.07%。

🔬 方法详解

问题定义:论文旨在解决图像到点云的全局定位问题,特别是在GNSS拒止的环境中。现有方法要么需要将图像和点云统一到同一模态,导致信息损失;要么依赖于人工设计的训练方案来编码多模态特征,但这些方案通常缺乏特征对齐和关系一致性。

核心思路:论文的核心思路是利用对比学习框架,结合显著性引导的特征聚合,实现图像和点云之间的有效特征映射和对齐。通过显著性图关注场景中的重要信息,并保持不同模态数据在流形空间中的关系一致性,从而提高定位精度。

技术框架:SaliencyI2PLoc的整体架构包含以下几个主要模块:1) 特征提取模块,分别从图像和点云中提取初始特征;2) 显著性引导的局部特征聚合模块,利用显著性图对图像特征进行加权,并与点云特征进行聚合;3) 对比学习模块,通过对比损失函数,学习跨模态的特征映射,使得相同场景的图像和点云特征在嵌入空间中更接近;4) 关系一致性模块,保持不同模态数据在流形空间中的相对关系一致。

关键创新:该方法最重要的技术创新点在于:1) 将显著性图引入到跨模态特征聚合中,关注场景中的关键信息;2) 在对比学习过程中,考虑了不同模态数据在流形空间中的关系一致性,从而增强了特征对齐;3) 采用对比学习框架,避免了复杂的数据预处理和人工特征设计。

关键设计:在显著性引导的局部特征聚合模块中,使用预训练的显著性检测模型提取图像的显著性图,并将其作为权重应用于图像特征。对比损失函数采用InfoNCE损失,用于拉近正样本对(同一场景的图像和点云)的距离,推远负样本对(不同场景的图像和点云)的距离。关系一致性模块通过最小化不同模态数据在嵌入空间中的相对距离差异来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在城市场景评估数据集上取得了显著的性能提升,Recall@1达到78.92%,Recall@20达到97.59%。与基线方法相比,Recall@1提高了37.35%,Recall@20提高了18.07%。实验结果表明,SaliencyI2PLoc能够有效地融合图像和点云数据,实现更精确的全局定位。

🎯 应用场景

该研究成果可应用于GNSS拒止环境下的机器人导航、多机器人地图融合、城市资产管理等领域。通过实现精确的图像到点云定位,可以提高机器人在复杂环境中的自主导航能力,并为城市基础设施的维护和管理提供更高效的解决方案。未来,该技术有望扩展到更多跨模态场景,例如视觉-激光雷达SLAM、三维重建等。

📄 摘要(原文)

Image to point cloud global localization is crucial for robot navigation in GNSS-denied environments and has become increasingly important for multi-robot map fusion and urban asset management. The modality gap between images and point clouds poses significant challenges for cross-modality fusion. Current cross-modality global localization solutions either require modality unification, which leads to information loss, or rely on engineered training schemes to encode multi-modality features, which often lack feature alignment and relation consistency. To address these limitations, we propose, SaliencyI2PLoc, a novel contrastive learning based architecture that fuses the saliency map into feature aggregation and maintains the feature relation consistency on multi-manifold spaces. To alleviate the pre-process of data mining, the contrastive learning framework is applied which efficiently achieves cross-modality feature mapping. The context saliency-guided local feature aggregation module is designed, which fully leverages the contribution of the stationary information in the scene generating a more representative global feature. Furthermore, to enhance the cross-modality feature alignment during contrastive learning, the consistency of relative relationships between samples in different manifold spaces is also taken into account. Experiments conducted on urban and highway scenario datasets demonstrate the effectiveness and robustness of our method. Specifically, our method achieves a Recall@1 of 78.92% and a Recall@20 of 97.59% on the urban scenario evaluation dataset, showing an improvement of 37.35% and 18.07%, compared to the baseline method. This demonstrates that our architecture efficiently fuses images and point clouds and represents a significant step forward in cross-modality global localization. The project page and code will be released.