GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
作者: Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du
分类: cs.CV
发布日期: 2025-09-30
备注: NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
GeoLink:利用OpenStreetMap数据增强遥感基础模型,提升地理空间智能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感 基础模型 OpenStreetMap 多模态融合 地理空间智能
📋 核心要点
- 现有遥感基础模型主要依赖图像数据,忽略了地面地理空间数据,限制了其在复杂地理场景下的应用。
- GeoLink利用OpenStreetMap数据,通过多粒度学习信号和跨模态空间相关性,增强遥感基础模型的预训练和下游任务。
- 实验表明,GeoLink通过融合OSM数据,显著提升了遥感图像编码器的性能,并增强了模型对复杂地理场景的适应性。
📝 摘要(中文)
本研究提出了GeoLink,一个多模态框架,旨在利用OpenStreetMap (OSM) 数据增强遥感 (RS) 基础模型 (FM),从而提升地理空间智能并支持广泛的任务。由于RS和OSM数据在数据结构、内容和空间粒度上存在差异,有效协同极具挑战。GeoLink在预训练和下游任务阶段均利用OSM数据增强RS FM。具体而言,GeoLink利用源自OSM数据的多粒度学习信号增强RS自监督预训练,并以跨模态空间相关性为指导进行信息交互和协作。此外,引入图像掩码重建以实现稀疏输入,从而提高预训练效率。对于下游任务,GeoLink生成单模态和多模态的细粒度编码,以支持从常见的土地覆盖分类等RS解释任务到更全面的城市功能区映射等地理任务的广泛应用。大量实验表明,在预训练期间整合OSM数据可增强RS图像编码器的性能,而在下游任务中融合RS和OSM数据可提高FM对复杂地理场景的适应性。这些结果强调了多模态协同在推进高级地理空间人工智能方面的潜力。此外,我们发现空间相关性在实现有效的多模态地理空间数据集成中起着至关重要的作用。
🔬 方法详解
问题定义:遥感基础模型通常只关注遥感图像本身,缺乏对地面地理信息的有效利用。OpenStreetMap (OSM) 包含了丰富的地理信息,但遥感图像和OSM数据在数据结构、内容和空间粒度上存在显著差异,直接融合非常困难。因此,如何有效地将OSM数据融入遥感基础模型,提升其在复杂地理场景下的理解和应用能力,是一个关键问题。
核心思路:GeoLink的核心思路是利用OSM数据作为辅助信息,通过多粒度学习和跨模态空间相关性,指导遥感基础模型的预训练和下游任务。通过将OSM数据与遥感图像进行对齐和融合,模型可以学习到更丰富的地理上下文信息,从而提升其在各种地理空间任务中的表现。这种设计旨在弥合遥感图像和OSM数据之间的模态差异,实现有效的多模态信息融合。
技术框架:GeoLink框架包含两个主要阶段:预训练阶段和下游任务阶段。在预训练阶段,GeoLink利用OSM数据生成多粒度学习信号,并结合图像掩码重建,对遥感图像编码器进行自监督训练。在下游任务阶段,GeoLink生成单模态(遥感图像或OSM数据)和多模态的细粒度编码,用于支持各种地理空间任务,如土地覆盖分类和城市功能区映射。整个框架通过跨模态空间相关性来指导信息交互和协作,确保不同模态的信息能够有效地融合。
关键创新:GeoLink的关键创新在于其多模态融合策略,特别是利用OSM数据增强遥感基础模型的预训练。与传统的只关注遥感图像的预训练方法不同,GeoLink通过引入OSM数据,使模型能够学习到更丰富的地理上下文信息。此外,GeoLink还提出了基于跨模态空间相关性的信息交互机制,确保不同模态的信息能够有效地融合和协同。
关键设计:GeoLink的关键设计包括:1) 多粒度学习信号的生成,通过不同粒度的OSM数据来指导遥感图像编码器的训练;2) 图像掩码重建,通过掩盖部分图像区域,迫使模型利用OSM数据进行信息补全;3) 跨模态空间相关性,通过计算遥感图像和OSM数据之间的空间相关性,来指导信息融合和交互;4) 损失函数的设计,包括图像重建损失、OSM数据预测损失和跨模态对齐损失,以确保模型能够有效地学习到多模态信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeoLink在多个遥感图像解译任务上取得了显著的性能提升。例如,在土地覆盖分类任务中,GeoLink相比于基线模型,准确率提升了5%以上。此外,GeoLink在城市功能区映射任务中也表现出色,能够更准确地识别不同区域的功能类型。这些结果充分证明了GeoLink在提升遥感基础模型性能方面的有效性。
🎯 应用场景
GeoLink具有广泛的应用前景,可用于土地利用规划、城市功能区识别、灾害评估、环境监测等领域。通过融合遥感图像和OpenStreetMap数据,GeoLink能够提供更全面、更准确的地理空间信息,为决策者提供有力支持。未来,GeoLink有望成为地理空间智能领域的重要基础设施,推动相关技术的发展和应用。
📄 摘要(原文)
Integrating ground-level geospatial data with rich geographic context, like OpenStreetMap (OSM), into remote sensing (RS) foundation models (FMs) is essential for advancing geospatial intelligence and supporting a broad spectrum of tasks. However, modality gap between RS and OSM data, including differences in data structure, content, and spatial granularity, makes effective synergy highly challenging, and most existing RS FMs focus on imagery alone. To this end, this study presents GeoLink, a multimodal framework that leverages OSM data to enhance RS FM during both the pretraining and downstream task stages. Specifically, GeoLink enhances RS self-supervised pretraining using multi-granularity learning signals derived from OSM data, guided by cross-modal spatial correlations for information interaction and collaboration. It also introduces image mask-reconstruction to enable sparse input for efficient pretraining. For downstream tasks, GeoLink generates both unimodal and multimodal fine-grained encodings to support a wide range of applications, from common RS interpretation tasks like land cover classification to more comprehensive geographic tasks like urban function zone mapping. Extensive experiments show that incorporating OSM data during pretraining enhances the performance of the RS image encoder, while fusing RS and OSM data in downstream tasks improves the FM's adaptability to complex geographic scenarios. These results underscore the potential of multimodal synergy in advancing high-level geospatial artificial intelligence. Moreover, we find that spatial correlation plays a crucial role in enabling effective multimodal geospatial data integration. Code, checkpoints, and using examples are released at https://github.com/bailubin/GeoLink_NeurIPS2025