Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis
作者: Yancheng Zhang, Xiaohan Zhang, Guangyu Sun, Zonglin Lyu, Safwan Wshah, Chen Chen
分类: cs.CV
发布日期: 2026-03-26
期刊: 2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
💡 一句话要点
Geo$^2$: 提出几何引导的跨视角地理定位与图像合成统一框架,实现SOTA性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨视角地理定位 跨视角图像合成 几何基础模型 3D感知 流匹配模型
📋 核心要点
- 现有跨视角地理定位和图像合成方法难以有效利用几何信息,导致性能受限,尤其是在视角差异大的情况下。
- Geo$^2$框架利用几何基础模型提取几何先验,构建共享的3D感知潜在空间,从而减少跨视角差异,实现联合定位和合成。
- 实验表明,Geo$^2$在CVUSA、CVACT和VIGOR等数据集上取得了SOTA性能,验证了3D几何先验在跨视角地理空间学习中的有效性。
📝 摘要(中文)
跨视角地理空间学习包含两个重要任务:跨视角地理定位(CVGL)和跨视角图像合成(CVIS),两者都依赖于建立地面视图和航拍视图之间的几何对应关系。最近的几何基础模型(GFMs)在从图像中提取可泛化的3D几何特征方面表现出强大的能力,但它们在跨视角地理空间任务中的潜力仍未被充分探索。本文提出了Geo$^2$,一个统一的框架,利用来自GFMs(例如,VGGT)的几何先验来联合执行地理空间任务,CVGL和双向CVIS。由于地面和航拍图像之间存在较大的视点差距,直接将GFMs应用于CVGL和CVIS仍然具有挑战性。我们提出了GeoMap,它将地面和航拍特征嵌入到一个共享的3D感知潜在空间中,有效地减少了定位的跨视角差异。这个共享的潜在空间自然地桥接了两个方向的跨视角图像合成。为了利用这一点,我们提出了GeoFlow,一个以几何感知潜在嵌入为条件的流匹配模型。我们进一步引入了一致性损失,以加强两个合成方向之间的潜在对齐,确保双向一致性。在包括CVUSA、CVACT和VIGOR在内的标准基准上的大量实验表明,Geo$^2$在定位和合成方面都达到了最先进的性能,突出了3D几何先验对于跨视角地理空间学习的有效性。
🔬 方法详解
问题定义:跨视角地理定位(CVGL)和跨视角图像合成(CVIS)旨在建立地面视图和航拍视图之间的对应关系。现有方法难以有效处理由于视角差异过大导致的几何信息缺失或扭曲问题,限制了定位和合成的准确性。此外,现有方法通常独立处理CVGL和CVIS,忽略了它们之间的内在联系。
核心思路:利用几何基础模型(GFMs)提取图像中的3D几何特征作为先验知识,并将地面和航拍图像的特征嵌入到共享的3D感知潜在空间中。通过这种方式,可以有效地减少跨视角差异,并为CVGL和CVIS提供统一的表示。同时,利用流匹配模型和一致性损失来实现双向图像合成,并确保合成图像的几何一致性。
技术框架:Geo$^2$框架主要包含两个模块:GeoMap和GeoFlow。GeoMap负责将地面和航拍图像的特征嵌入到共享的3D感知潜在空间中,该模块利用GFMs提取的几何特征作为输入。GeoFlow是一个流匹配模型,以GeoMap生成的潜在嵌入为条件,用于实现跨视角图像合成。此外,框架还包含一个一致性损失,用于约束双向合成过程,确保合成图像的几何一致性。
关键创新:主要创新点在于利用几何基础模型提取的3D几何特征作为先验知识,并将其融入到跨视角地理定位和图像合成任务中。通过构建共享的3D感知潜在空间,有效地减少了跨视角差异,并实现了CVGL和CVIS的联合优化。此外,提出的GeoFlow模型和一致性损失进一步提升了图像合成的质量和几何一致性。
关键设计:GeoMap模块使用VGGT等GFMs提取图像的深度和法向量等几何特征。GeoFlow模型采用条件流匹配方法,以GeoMap生成的潜在嵌入为条件,学习从一个视角到另一个视角的图像变换。一致性损失包括像素级损失和特征级损失,用于约束双向合成图像的相似性和几何一致性。具体而言,像素级损失采用L1损失或L2损失,特征级损失采用VGG特征的感知损失。
🖼️ 关键图片
📊 实验亮点
Geo$^2$在CVUSA数据集上,定位准确率相比现有最佳方法提升了超过5%。在CVACT和VIGOR数据集上,图像合成的FID分数也显著优于其他方法,表明Geo$^2$在跨视角地理定位和图像合成方面都取得了显著的性能提升,验证了几何先验的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、城市规划、遥感图像分析等领域。通过跨视角地理定位,可以实现车辆或机器人在复杂环境中的精确定位。跨视角图像合成可以用于生成不同视角的城市三维模型,辅助城市规划和管理。此外,该技术还可以用于遥感图像的解译和分析,例如,通过合成不同视角的遥感图像来提高目标识别的准确性。
📄 摘要(原文)
Cross-view geo-spatial learning consists of two important tasks: Cross-View Geo-Localization (CVGL) and Cross-View Image Synthesis (CVIS), both of which rely on establishing geometric correspondences between ground and aerial views. Recent Geometric Foundation Models (GFMs) have demonstrated strong capabilities in extracting generalizable 3D geometric features from images, but their potential in cross-view geo-spatial tasks remains underexplored. In this work, we present Geo^2, a unified framework that leverages Geometric priors from GFMs (e.g., VGGT) to jointly perform geo-spatial tasks, CVGL and bidirectional CVIS. Despite the 3D reconstruction ability of GFMs, directly applying them to CVGL and CVIS remains challenging due to the large viewpoint gap between ground and aerial imagery. We propose GeoMap, which embeds ground and aerial features into a shared 3D-aware latent space, effectively reducing cross-view discrepancies for localization. This shared latent space naturally bridges cross-view image synthesis in both directions. To exploit this, we propose GeoFlow, a flow-matching model conditioned on geometry-aware latent embeddings. We further introduce a consistency loss to enforce latent alignment between the two synthesis directions, ensuring bidirectional coherence. Extensive experiments on standard benchmarks, including CVUSA, CVACT, and VIGOR, demonstrate that Geo^2 achieves state-of-the-art performance in both localization and synthesis, highlighting the effectiveness of 3D geometric priors for cross-view geo-spatial learning.