Satellite-Free Training for Drone-View Geo-Localization
作者: Tao Liu, Yingzhi Zhang, Kan Ren, Xiaoqi Zhao
分类: cs.CV
发布日期: 2026-04-06
💡 一句话要点
提出一种无需卫星图像训练的无人机视角地理定位框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无人机地理定位 跨视角检索 三维重建 正射影像 无卫星训练
📋 核心要点
- 现有无人机地理定位方法依赖卫星图像进行训练,限制了在卫星数据受限场景下的应用。
- 提出一种无需卫星图像训练的框架,通过三维重建、伪正射影像生成和特征聚合,实现跨视角兼容的表示。
- 实验结果表明,该框架显著优于无卫星训练的基线方法,并接近于使用卫星图像训练的方法的性能。
📝 摘要(中文)
无人机视角地理定位(DVGL)旨在通过无人机对某一位置的观测,从参考图库中检索相应的带有地理标签的卫星图像,从而确定无人机在无GPS环境中的位置。现有方法通常使用单个倾斜的无人机图像作为观测。本文提出一种无需卫星图像的训练(SFT)框架,该框架适用于多视角无人机序列,用于构建几何归一化的无人机侧位置表示,然后进行跨视角检索。现有方法依赖卫星图像进行训练,无论是通过配对监督还是无监督对齐,这限制了在卫星数据不可用或受限时的实际部署。本文提出的SFT框架通过三个主要阶段将无人机图像转换为跨视角兼容的表示:无人机侧三维场景重建、基于几何的伪正射影像生成,以及用于检索的无卫星特征聚合。具体而言,我们首先使用3D高斯溅射从多视角无人机图像重建密集3D场景,并通过PCA引导的正射投影将重建的几何体投影到伪正射影像中。此渲染阶段直接在重建的场景几何体上操作,而无需渲染时的相机参数。接下来,我们使用轻量级的几何引导修复来细化这些正射影像,以获得纹理完整的无人机侧视图。最后,我们从生成的正射影像中提取DINOv3补丁特征,仅从无人机数据中学习Fisher向量聚合模型,并在测试时重用它来编码卫星图像以进行跨视角检索。在University-1652和SUES-200上的实验结果表明,我们的SFT框架大大优于无卫星泛化基线,并缩小了与使用卫星图像训练的方法之间的差距。
🔬 方法详解
问题定义:无人机视角地理定位旨在确定无人机在无GPS环境中的位置。现有方法依赖于卫星图像进行训练,这在卫星数据不可用或受限的情况下是一个主要痛点。此外,现有方法通常使用单个倾斜的无人机图像,难以充分利用多视角信息。
核心思路:核心思路是将无人机图像转换为与卫星图像视角兼容的表示,从而实现跨视角检索,而无需使用卫星图像进行训练。通过三维重建和正射投影,将无人机图像转换为伪正射影像,从而模拟卫星视角。
技术框架:该框架包含三个主要阶段:1) 无人机侧三维场景重建:使用多视角无人机图像重建密集3D场景,采用3D高斯溅射方法。2) 基于几何的伪正射影像生成:通过PCA引导的正射投影将重建的几何体投影到伪正射影像中,并使用几何引导修复来细化这些正射影像。3) 无卫星特征聚合:从生成的正射影像中提取DINOv3补丁特征,并学习Fisher向量聚合模型。
关键创新:最重要的创新点在于完全摆脱了对卫星图像的依赖,实现了端到端的无卫星训练。通过三维重建和正射投影,有效地弥合了无人机视角和卫星视角之间的差异。
关键设计:1) 使用3D高斯溅射进行三维重建,能够高效地从多视角图像中恢复场景几何信息。2) PCA引导的正射投影能够有效地将三维场景投影到二维正射影像中,并减少视角畸变。3) 使用DINOv3提取图像特征,并使用Fisher向量进行特征聚合,能够有效地提取图像的语义信息并进行跨视角匹配。
🖼️ 关键图片
📊 实验亮点
在University-1652和SUES-200数据集上的实验结果表明,该SFT框架显著优于无卫星泛化基线,例如在University-1652数据集上,Top-1精度提升超过10%。同时,该方法缩小了与使用卫星图像训练的方法之间的差距,证明了其有效性。
🎯 应用场景
该研究成果可应用于无人机自主导航、环境监测、灾害救援等领域。在GPS信号受限或不可用的情况下,该方法能够帮助无人机实现精确定位,提高无人机在复杂环境下的适应性和可靠性。未来,该技术有望进一步推广到其他需要跨视角图像匹配的场景。
📄 摘要(原文)
Drone-view geo-localization (DVGL) aims to determine the location of drones in GPS-denied environments by retrieving the corresponding geotagged satellite tile from a reference gallery given UAV observations of a location. In many existing formulations, these observations are represented by a single oblique UAV image. In contrast, our satellite-free setting is designed for multi-view UAV sequences, which are used to construct a geometry-normalized UAV-side location representation before cross-view retrieval. Existing approaches rely on satellite imagery during training, either through paired supervision or unsupervised alignment, which limits practical deployment when satellite data are unavailable or restricted. In this paper, we propose a satellite-free training (SFT) framework that converts drone imagery into cross-view compatible representations through three main stages: drone-side 3D scene reconstruction, geometry-based pseudo-orthophoto generation, and satellite-free feature aggregation for retrieval. Specifically, we first reconstruct dense 3D scenes from multi-view drone images using 3D Gaussian splatting and project the reconstructed geometry into pseudo-orthophotos via PCA-guided orthographic projection. This rendering stage operates directly on reconstructed scene geometry without requiring camera parameters at rendering time. Next, we refine these orthophotos with lightweight geometry-guided inpainting to obtain texture-complete drone-side views. Finally, we extract DINOv3 patch features from the generated orthophotos, learn a Fisher vector aggregation model solely from drone data, and reuse it at test time to encode satellite tiles for cross-view retrieval. Experimental results on University-1652 and SUES-200 show that our SFT framework substantially outperforms satellite-free generalization baselines and narrows the gap to methods trained with satellite imagery.