Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning

📄 arXiv: 2510.00072v1 📥 PDF

作者: Chenhui Xu, Fuxun Yu, Michael J. Bianco, Jacob Kovarskiy, Raphael Tang, Qi Zhang, Zirui Xu, Will LeVine, Brandon Dubbs, Heming Liao, Cassandra Burgess, Suvam Bag, Jay Patravali, Rupanjali Kukal, Mikael Figueroa, Rishi Madhok, Nikolaos Karianakis, Jinjun Xiong

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-29

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Geo-R1:通过跨视角强化学习解锁视觉语言模型中的地理空间推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间推理 视觉语言模型 强化学习 跨视角学习 思维链 后训练 GRPO 弱监督学习

📋 核心要点

  1. 现有视觉语言模型在地理空间推理方面存在不足,难以有效连接视觉信息与地理知识。
  2. Geo-R1通过思维脚手架和跨视角强化学习,引导模型学习地理空间推理模式,提升推理能力。
  3. Geo-R1在多个地理空间推理基准测试中取得了领先性能,证明了其有效性。

📝 摘要(中文)

本文提出了Geo-R1,一个以推理为中心的后训练框架,旨在通过结合思维脚手架和提升策略,解锁视觉语言模型中的地理空间推理能力。在脚手架阶段,Geo-R1通过在合成的思维链示例上进行监督微调,灌输一种“地理空间思维模式”,使模型能够在无需昂贵的人工推理标注的情况下,将视觉线索与地理先验知识联系起来。在提升阶段,它使用基于GRPO的强化学习,利用弱监督的跨视角配对代理。这种设计提供了一个可验证且可扩展的奖励信号:教导模型捕获和协调跨模态的特征,并利用推理进行准确预测。Geo-R1将地理空间建模从领域预训练/监督微调扩展到推理优先的后训练,并在各种地理空间推理基准测试中实现了最先进的性能。我们的模型已在https://huggingface.co/miniHui/Geo-R1上提供。

🔬 方法详解

问题定义:现有的视觉语言模型在处理地理空间推理任务时,往往难以有效地将视觉信息(例如卫星图像、街景图像)与地理知识(例如地理位置、地标信息)进行关联。这导致模型在需要进行复杂地理空间推理的任务中表现不佳,例如判断两个地点之间的相对位置、识别特定区域的土地利用类型等。现有方法通常依赖于大规模的领域预训练或监督微调,但这些方法需要大量的标注数据,且难以泛化到新的地理区域或任务。

核心思路:Geo-R1的核心思路是将地理空间推理过程分解为两个阶段:脚手架阶段和提升阶段。脚手架阶段旨在通过监督微调,使模型学习一种“地理空间思维模式”,即能够将视觉线索与地理先验知识联系起来。提升阶段则利用强化学习,进一步提升模型的推理能力,使其能够更好地捕获和协调跨模态的特征。这种分阶段的方法可以有效地利用弱监督信息,并避免对大量人工标注数据的依赖。

技术框架:Geo-R1的整体框架包含两个主要阶段:1) 脚手架阶段:使用合成的思维链示例对视觉语言模型进行监督微调,使其学习地理空间推理的基本模式。这些示例包含一系列的推理步骤,例如“首先,识别图像中的地标;然后,确定地标的地理位置;最后,根据地理位置推断图像的拍摄地点”。2) 提升阶段:使用基于GRPO(Generative Reinforcement Learning with Proximal Optimization)的强化学习,利用弱监督的跨视角配对代理来训练模型。该代理通过比较不同视角的图像特征,并根据它们之间的地理关系来生成奖励信号。模型的目标是最大化该奖励信号,从而学习更好地捕获和协调跨模态的特征。

关键创新:Geo-R1的关键创新在于其将地理空间建模从传统的领域预训练/监督微调扩展到推理优先的后训练。通过引入思维脚手架和跨视角强化学习,Geo-R1能够有效地利用弱监督信息,并提升模型的地理空间推理能力。此外,Geo-R1还提出了一种新的基于GRPO的强化学习方法,该方法能够更好地处理跨模态的特征,并生成更有效的奖励信号。

关键设计:在脚手架阶段,Geo-R1使用合成的思维链示例进行监督微调。这些示例的生成过程需要仔细设计,以确保其能够覆盖各种不同的地理空间推理场景。在提升阶段,Geo-R1使用基于GRPO的强化学习方法。GRPO是一种近端策略优化算法,可以有效地避免策略更新过程中的不稳定问题。此外,Geo-R1还设计了一种新的奖励函数,该函数基于跨视角图像特征之间的地理关系来生成奖励信号。具体来说,该奖励函数会惩罚模型在预测地理位置时的错误,并奖励模型在捕获和协调跨模态特征方面的努力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Geo-R1在多个地理空间推理基准测试中取得了最先进的性能。例如,在GeoQA数据集上,Geo-R1的准确率比之前的最佳模型提高了超过5个百分点。此外,Geo-R1还在CrossView数据集上取得了显著的性能提升,证明了其在跨视角图像理解方面的能力。这些实验结果表明,Geo-R1是一种有效的地理空间推理模型,具有很强的泛化能力。

🎯 应用场景

Geo-R1具有广泛的应用前景,例如城市规划、环境监测、灾害评估和自动驾驶等领域。它可以帮助人们更好地理解和分析地理空间数据,从而做出更明智的决策。例如,在城市规划中,Geo-R1可以用于评估不同地点的交通流量、人口密度和土地利用类型,从而帮助规划者优化城市布局。在环境监测中,Geo-R1可以用于监测森林砍伐、水污染和空气质量,从而帮助环保部门采取有效的措施。在自动驾驶中,Geo-R1可以用于识别道路标志、交通信号灯和行人,从而提高自动驾驶汽车的安全性。

📄 摘要(原文)

We introduce Geo-R1, a reasoning-centric post-training framework that unlocks geospatial reasoning in vision-language models by combining thinking scaffolding and elevating. In the scaffolding stage, Geo-R1 instills a ``geospatial thinking paradigm" via supervised fine-tuning on synthetic chain-of-thought exemplars, enabling models to connect visual cues with geographic priors without costly human reasoning annotations. In the elevating stage, it uses GRPO-based reinforcement learning on a weakly-supervised cross-view pairing proxy. This design supplies a verifiable and scalable reward signal: teaching models to capture and reconcile features across modalities, and harnessing reasoning for accurate prediction. Geo-R1 extends geospatial modeling from domain pretraining / supervised finetuning to reasoning-first post-training, and achieves state-of-the-art performance across various geospatial reasoning benchmarks. Our model is available at https://huggingface.co/miniHui/Geo-R1.