TransLocNet: Cross-Modal Attention for Aerial-Ground Vehicle Localization with Contrastive Learning

📄 arXiv: 2512.10419v1 📥 PDF

作者: Phu Pham, Damon Conover, Aniket Bera

分类: cs.CV

发布日期: 2025-12-11

备注: 8 pages, 4 figures, 4 tables


💡 一句话要点

TransLocNet:基于跨模态注意力和对比学习的无人机-地面车辆定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机定位 地面车辆定位 跨模态融合 注意力机制 对比学习 激光雷达 航拍图像

📋 核心要点

  1. 无人机-地面车辆定位面临视角和模态差异巨大的挑战,现有方法难以有效融合激光雷达和航拍图像。
  2. TransLocNet利用跨模态注意力机制,将激光雷达几何信息与航拍语义信息融合,实现精准定位。
  3. 实验结果表明,TransLocNet在CARLA和KITTI数据集上显著优于现有方法,定位误差降低高达63%。

📝 摘要(中文)

本文提出TransLocNet,一个跨模态注意力框架,用于融合激光雷达几何信息与无人机航拍语义上下文,解决无人机-地面车辆定位难题。该方法通过双向注意力机制将激光雷达扫描投影到鸟瞰图表示,并与航拍特征对齐,然后使用似然图解码器输出位置和方向的空间概率分布。此外,对比学习模块用于强制执行共享嵌入空间,以改善跨模态对齐。在CARLA和KITTI数据集上的实验表明,TransLocNet优于现有技术水平的方法,定位误差最多可降低63%,并实现亚米级、亚度级的精度。这些结果表明,TransLocNet在合成和真实世界环境中提供了鲁棒且可泛化的无人机-地面车辆定位。

🔬 方法详解

问题定义:无人机-地面车辆定位旨在确定地面车辆在无人机航拍图像中的精确位置和方向。现有方法难以有效应对激光雷达和航拍图像之间巨大的视角和模态差异,导致定位精度不高,鲁棒性较差。

核心思路:TransLocNet的核心思路是利用跨模态注意力机制,将激光雷达点云数据转换成的鸟瞰图(BEV)表示与航拍图像的语义信息进行有效融合。通过学习两种模态之间的关联性,从而弥合模态差异,提升定位精度。同时,采用对比学习进一步增强跨模态特征的对齐。

技术框架:TransLocNet的整体框架包括以下几个主要模块:1) 特征提取模块:分别提取激光雷达BEV表示和航拍图像的特征;2) 跨模态注意力模块:使用双向注意力机制,将激光雷达特征和航拍特征进行融合,学习两种模态之间的关联性;3) 似然图解码器:根据融合后的特征,生成位置和方向的概率分布图,从而实现定位;4) 对比学习模块:通过对比学习损失,强制两种模态的特征嵌入到共享空间,进一步提升跨模态对齐效果。

关键创新:TransLocNet的关键创新在于:1) 提出了跨模态注意力机制,能够有效地融合激光雷达和航拍图像的特征,弥合模态差异;2) 引入了对比学习模块,进一步增强了跨模态特征的对齐,提升了定位精度和鲁棒性。与现有方法相比,TransLocNet能够更好地利用两种模态的信息,从而实现更精确的定位。

关键设计:在跨模态注意力模块中,使用了双向注意力机制,分别计算激光雷达特征对航拍特征的注意力权重,以及航拍特征对激光雷达特征的注意力权重。对比学习模块采用了InfoNCE损失函数,通过最大化正样本对的相似度,最小化负样本对的相似度,来学习共享嵌入空间。似然图解码器使用卷积神经网络,将融合后的特征映射到位置和方向的概率分布图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TransLocNet在CARLA和KITTI数据集上进行了实验验证。在CARLA数据集上,TransLocNet的定位误差降低了63%,达到了亚米级、亚度级的精度。在KITTI数据集上,TransLocNet也取得了显著的性能提升,优于现有的state-of-the-art方法。实验结果表明,TransLocNet具有良好的泛化能力和鲁棒性,能够在不同的环境和数据集上实现精确的无人机-地面车辆定位。

🎯 应用场景

TransLocNet在自动驾驶、智能交通、智慧城市等领域具有广泛的应用前景。例如,可以用于辅助自动驾驶车辆进行定位和导航,提高车辆在复杂环境下的感知能力。此外,还可以应用于灾害救援、环境监测等领域,通过无人机和地面车辆的协同工作,实现更高效的任务执行。该研究的成果有助于推动无人机和地面车辆的智能化发展。

📄 摘要(原文)

Aerial-ground localization is difficult due to large viewpoint and modality gaps between ground-level LiDAR and overhead imagery. We propose TransLocNet, a cross-modal attention framework that fuses LiDAR geometry with aerial semantic context. LiDAR scans are projected into a bird's-eye-view representation and aligned with aerial features through bidirectional attention, followed by a likelihood map decoder that outputs spatial probability distributions over position and orientation. A contrastive learning module enforces a shared embedding space to improve cross-modal alignment. Experiments on CARLA and KITTI show that TransLocNet outperforms state-of-the-art baselines, reducing localization error by up to 63% and achieving sub-meter, sub-degree accuracy. These results demonstrate that TransLocNet provides robust and generalizable aerial-ground localization in both synthetic and real-world settings.