BEVMAPMATCH: Multimodal BEV Neural Map Matching for Robust Re-Localization of Autonomous Vehicles

作者: Shounak Sural, Ragunathan Rajkumar

分类: cs.CV

发布日期: 2026-03-26

备注: 8 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

BEVMapMatch：用于自动驾驶车辆在恶劣环境下鲁棒重定位的多模态BEV神经地图匹配方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 重定位 鸟瞰图 多模态融合 地图匹配 激光雷达 计算机视觉

📋 核心要点

现有方法在GNSS受限或退化的环境中，难以实现自动驾驶车辆的鲁棒定位。
BEVMapMatch通过激光雷达+相机融合生成多模态BEV分割图，并利用交叉注意力进行地图匹配。
实验结果表明，BEVMapMatch在恶劣环境下的重定位性能显著优于现有方法，Recall@1m提升近一倍。

📝 摘要（中文）

在GNSS受限或退化的环境中，自动驾驶车辆的安全部署面临定位挑战。本文提出了BEVMapMatch，一个鲁棒的车辆重定位框架，它无需GNSS先验知识，仅依赖已知地图。BEVMapMatch采用上下文感知的激光雷达+相机融合方法，在良好和恶劣天气条件下生成以自我车辆为中心的多模态鸟瞰图（BEV）分割。利用基于交叉注意力的搜索机制，生成的BEV分割图用于检索候选地图块以进行地图匹配。最后，BEVMapMatch使用检索到的最佳候选地图块与生成的BEV分割图进行精细对齐，从而实现无需GNSS的精确全局定位。多帧BEV分割图的融合进一步提高了定位精度。大量评估表明，BEVMapMatch在GNSS受限和恶劣环境下的重定位性能优于现有方法，Recall@1m达到39.8%，几乎是最佳重定位基线的两倍。代码和数据将在https://github.com/ssuralcmu/BEVMapMatch.git上公开。

🔬 方法详解

问题定义：论文旨在解决在GNSS信号弱或缺失的环境中，自动驾驶车辆难以进行可靠重定位的问题。现有方法依赖GNSS信息，在恶劣天气或城市峡谷等场景下表现不佳，限制了自动驾驶技术的广泛应用。

核心思路：论文的核心思路是利用激光雷达和相机数据融合生成鸟瞰图（BEV）表示，并将其与预先构建的地图进行匹配，从而实现无需GNSS的车辆重定位。这种方法的核心在于利用多模态信息增强了对环境的感知能力，从而提高了定位的鲁棒性。

技术框架：BEVMapMatch框架主要包含三个阶段：1) 多模态BEV分割生成：利用激光雷达和相机数据，通过上下文感知的融合方法生成BEV分割图；2) 基于交叉注意力的地图块检索：使用生成的BEV分割图，通过交叉注意力机制从地图中检索候选地图块；3) 精细对齐和定位：将检索到的最佳候选地图块与生成的BEV分割图进行精细对齐，从而实现车辆的全局定位。多帧BEV分割图可以进一步提高定位精度。

关键创新：该方法的主要创新点在于：1) 提出了一种上下文感知的激光雷达+相机融合方法，能够生成鲁棒的多模态BEV分割图，即使在恶劣天气下也能保持较好的性能；2) 引入了基于交叉注意力的地图块检索机制，能够高效地从地图中找到与当前BEV分割图最匹配的区域；3) 提出了一种无需GNSS的全局定位方法，能够在GNSS受限或退化的环境中实现可靠的车辆重定位。

关键设计：论文中使用了深度学习模型进行BEV分割图的生成，具体网络结构未知。交叉注意力机制用于计算BEV分割图和地图块之间的相似度，从而实现地图块的检索。损失函数的设计细节未知，但可能包括分割损失和对齐损失。多帧BEV分割图的融合方式未知，可能采用滑动窗口或递归神经网络等方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BEVMapMatch在GNSS受限和恶劣环境下的重定位性能显著优于现有方法。在Recall@1m指标上，BEVMapMatch达到了39.8%，几乎是最佳重定位基线的两倍。这表明该方法在恶劣环境下的鲁棒性和准确性方面具有显著优势。

🎯 应用场景

BEVMapMatch具有广泛的应用前景，尤其适用于GNSS信号受限或退化的环境，如城市峡谷、隧道、室内停车场等。该技术可以提高自动驾驶车辆在复杂环境下的安全性和可靠性，促进自动驾驶技术的商业化落地。此外，该方法还可以应用于高精度地图构建、机器人导航等领域。

📄 摘要（原文）

Localization in GNSS-denied and GNSS-degraded environments is a challenge for the safe widespread deployment of autonomous vehicles. Such GNSS-challenged environments require alternative methods for robust localization. In this work, we propose BEVMapMatch, a framework for robust vehicle re-localization on a known map without the need for GNSS priors. BEVMapMatch uses a context-aware lidar+camera fusion method to generate multimodal Bird's Eye View (BEV) segmentations around the ego vehicle in both good and adverse weather conditions. Leveraging a search mechanism based on cross-attention, the generated BEV segmentation maps are then used for the retrieval of candidate map patches for map-matching purposes. Finally, BEVMapMatch uses the top retrieved candidate for finer alignment against the generated BEV segmentation, achieving accurate global localization without the need for GNSS. Multiple frames of generated BEV segmentation further improve localization accuracy. Extensive evaluations show that BEVMapMatch outperforms existing methods for re-localization in GNSS-denied and adverse environments, with a Recall@1m of 39.8%, being nearly twice as much as the best performing re-localization baseline. Our code and data will be made available at https://github.com/ssuralcmu/BEVMapMatch.git.

BEVMAPMATCH: Multimodal BEV Neural Map Matching for Robust Re-Localization of Autonomous Vehicles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理