UNIGEOCLIP: Unified Geospatial Contrastive Learning

📄 arXiv: 2604.11668v1 📥 PDF

作者: Guillaume Astruc, Eduard Trulls, Jan Hosang, Loic Landrieu, Paul-Edouard Sarlin

分类: cs.CV

发布日期: 2026-04-13

期刊: CVPR 2026 EarthVision

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

UNIGEOCLIP:统一地理空间对比学习框架,实现多模态地理数据对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间数据 多模态学习 对比学习 跨模态检索 地理坐标编码

📋 核心要点

  1. 现有地理空间数据利用方法缺乏有效融合多模态信息的能力,限制了模型在复杂任务中的表现。
  2. UNIGEOCLIP通过全对全对比学习,将航拍图像、街景、高程、文本和坐标等多模态数据对齐到统一嵌入空间。
  3. 实验表明,UNIGEOCLIP在多个下游任务中显著优于单模态模型和仅坐标基线,验证了多模态对齐的有效性。

📝 摘要(中文)

本文提出UNIGEOCLIP,一个大规模多模态对比学习框架,旨在统一对齐五个互补的地理空间模态,包括航拍图像、街景视图、高程模型、文本和地理坐标,到一个统一的嵌入空间。与以往融合模态或依赖中心枢轴表示的方法不同,UNIGEOCLIP执行全对全的对比对齐,从而实现跨任意模态组合的无缝比较、检索和推理。此外,本文还提出了一种缩放的经纬度编码器,通过捕获多尺度的地理结构来改善空间表示。在下游地理空间任务上的大量实验表明,UNIGEOCLIP始终优于单模态对比模型和仅坐标基线,突出了整体多模态地理空间对齐的优势。代码已开源。

🔬 方法详解

问题定义:现有方法在处理地理空间数据时,通常侧重于单一模态的信息,或者采用简单的模态融合策略,无法充分利用不同模态之间的互补信息。这导致模型在需要综合理解地理环境的任务中表现受限,例如跨模态检索、地理位置预测等。现有方法的痛点在于缺乏一个能够有效对齐和融合多种地理空间模态的统一框架。

核心思路:UNIGEOCLIP的核心思路是利用对比学习,将不同模态的地理空间数据映射到同一个嵌入空间,使得语义相关的样本在嵌入空间中距离更近,而语义不相关的样本距离更远。通过全对全的对比对齐,模型能够学习到不同模态之间的对应关系,从而实现跨模态的推理和检索。缩放的经纬度编码器旨在更好地捕捉地理坐标中的多尺度空间结构。

技术框架:UNIGEOCLIP的整体框架包含五个模态编码器(航拍图像、街景视图、高程模型、文本和地理坐标),以及一个对比学习模块。每个模态编码器负责将对应模态的数据转换为嵌入向量。对比学习模块则利用InfoNCE损失函数,促使来自同一地理位置的不同模态的嵌入向量彼此靠近,而来自不同地理位置的嵌入向量彼此远离。缩放的经纬度编码器将经纬度坐标映射到高维空间,并利用多层感知机学习空间结构。

关键创新:UNIGEOCLIP的关键创新在于其全对全的对比对齐策略。与以往方法不同,UNIGEOCLIP不依赖于中心枢轴表示或模态融合,而是直接对所有模态进行两两对比,从而更全面地学习模态之间的关系。此外,缩放的经纬度编码器也是一个创新点,它能够更好地捕捉地理坐标中的多尺度空间结构,从而提升空间表示的质量。

关键设计:UNIGEOCLIP使用InfoNCE损失函数进行对比学习,该损失函数通过最大化正样本对的相似度,同时最小化负样本对的相似度,来学习有效的嵌入表示。缩放的经纬度编码器将经纬度坐标缩放到[0, 1]范围内,然后使用正弦和余弦函数将其映射到高维空间。多层感知机的层数和隐藏层大小需要根据具体任务进行调整。作者使用了AdamW优化器进行训练,并设置了合适的学习率和权重衰减系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UNIGEOCLIP在多个下游地理空间任务中取得了显著的性能提升。例如,在跨模态图像检索任务中,UNIGEOCLIP的Recall@K指标优于单模态对比模型和仅坐标基线。此外,UNIGEOCLIP在地理位置预测任务中也表现出色,验证了其有效性。与现有方法相比,UNIGEOCLIP能够更好地利用多模态信息,从而提升模型的泛化能力和鲁棒性。

🎯 应用场景

UNIGEOCLIP具有广泛的应用前景,例如跨模态地理信息检索、城市规划、环境监测、自动驾驶和增强现实等领域。通过统一不同模态的地理空间数据,UNIGEOCLIP可以帮助用户更全面地理解地理环境,并做出更明智的决策。未来,该框架可以扩展到更多模态,例如气象数据、人口统计数据等,从而进一步提升其应用价值。

📄 摘要(原文)

The growing availability of co-located geospatial data spanning aerial imagery, street-level views, elevation models, text, and geographic coordinates offers a unique opportunity for multimodal representation learning. We introduce UNIGEOCLIP, a massively multimodal contrastive framework to jointly align five complementary geospatial modalities in a single unified embedding space. Unlike prior approaches that fuse modalities or rely on a central pivot representation, our method performs all-to-all contrastive alignment, enabling seamless comparison, retrieval, and reasoning across arbitrary combinations of modalities. We further propose a scaled latitude-longitude encoder that improves spatial representation by capturing multi-scale geographic structure. Extensive experiments across downstream geospatial tasks demonstrate that UNIGEOCLIP consistently outperforms single-modality contrastive models and coordinate-only baselines, highlighting the benefits of holistic multimodal geospatial alignment. A reference implementation is available at https://gastruc.github.io/unigeoclip.