VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing

📄 arXiv: 2512.11490v1 📥 PDF

作者: Emanuel Sánchez Aimar, Gulnaz Zhambulova, Fahad Shahbaz Khan, Yonghao Xu, Michael Felsberg

分类: cs.CV, cs.IR

发布日期: 2025-12-12

备注: 21 pages, 7 figures, under review


💡 一句话要点

提出VLM2GeoVec,用于遥感领域通用多模态嵌入,统一检索与区域理解。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 多模态嵌入 视觉语言模型 对比学习 跨模态检索

📋 核心要点

  1. 现有遥感方法在检索和区域理解上存在割裂,双编码器擅长检索但无法交错模态,生成模型擅长区域理解但缺乏检索能力。
  2. VLM2GeoVec采用单编码器结构,通过对比学习将图像、文本、边界框和地理坐标等多种模态信息嵌入到统一向量空间。
  3. 在RSMEB基准测试中,VLM2GeoVec在区域-标题检索、指代表达式检索和语义地理定位检索等任务上显著优于现有方法。

📝 摘要(中文)

卫星图像与自然图像存在根本差异,其空中视角、极高分辨率、多样的尺度变化以及大量的小物体,需要区域级空间推理和整体场景理解。当前的遥感方法仍然分散在双编码器检索模型(擅长大规模跨模态搜索,但不能交错模态)和生成式助手(支持区域级解释,但缺乏可扩展的检索能力)之间。我们提出了VLM2GeoVec,一个指令跟随的单编码器视觉-语言模型,通过对比学习训练,将交错输入(图像、文本、边界框和地理坐标)嵌入到统一的向量空间中。我们的单编码器将所有输入交错成一个联合嵌入,使用对比损失进行训练,消除了多阶段流水线和特定于任务的模块。为了评估其通用性,我们引入了RSMEB,这是一个涵盖关键遥感嵌入应用的新基准:场景分类;跨模态搜索;组合检索;视觉问答;视觉定位和区域级推理;以及语义地理空间检索。在RSMEB上,它在区域-标题检索上实现了26.6%的P@1(比双编码器基线高出25个百分点),在指代表达式检索上实现了32.5%的P@1(高出19个百分点),在语义地理定位检索上实现了17.8%的P@1(超过先前最佳结果的3倍),同时在场景分类和跨模态检索等传统任务上匹配或超过了专门的基线。VLM2GeoVec统一了可扩展的检索与区域级空间推理,从而实现了遥感中连贯的多模态分析。代码、检查点和数据将在接受后公开发布。

🔬 方法详解

问题定义:遥感图像分析面临的挑战在于如何有效地融合图像的全局场景理解和局部区域的空间推理。现有的方法要么侧重于大规模的跨模态检索,要么侧重于生成式的区域级解释,缺乏一个能够同时支持这两种能力并进行统一建模的框架。双编码器模型擅长检索,但无法处理模态间的交互,而生成模型虽然能够进行区域级的推理,但缺乏可扩展的检索能力。

核心思路:VLM2GeoVec的核心思路是利用一个单编码器模型,将所有输入模态(包括图像、文本、边界框和地理坐标)嵌入到一个统一的向量空间中。通过对比学习,模型能够学习到不同模态之间的关联性,从而实现跨模态的检索和区域级的推理。这种设计避免了多阶段的流水线和特定任务的模块,简化了模型结构,提高了效率。

技术框架:VLM2GeoVec的整体框架包括一个单编码器,该编码器接收交错的输入(图像、文本、边界框和地理坐标)。这些输入首先被转换成相应的嵌入表示,然后通过Transformer网络进行融合。模型使用对比损失进行训练,目标是使相似的样本在嵌入空间中更接近,而不相似的样本更远离。训练完成后,模型可以用于各种遥感任务,如场景分类、跨模态搜索、组合检索、视觉问答、视觉定位和区域级推理以及语义地理空间检索。

关键创新:VLM2GeoVec的关键创新在于其单编码器的设计和对比学习的训练方式。通过将所有模态的信息融合到一个统一的向量空间中,模型能够更好地理解不同模态之间的关系,从而实现更准确的检索和推理。与现有的双编码器模型相比,VLM2GeoVec能够处理模态间的交互,并且避免了多阶段的流水线。

关键设计:VLM2GeoVec的关键设计包括:1) 使用Transformer网络作为编码器,以捕捉输入之间的长距离依赖关系;2) 使用对比损失函数,以学习不同模态之间的相似性和差异性;3) 设计了一种交错输入的方式,将图像、文本、边界框和地理坐标等信息有效地融合在一起。具体的参数设置和网络结构细节将在论文的后续版本中公开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VLM2GeoVec在RSMEB基准测试中取得了显著的成果。在区域-标题检索任务中,P@1指标达到了26.6%,相比双编码器基线提升了25个百分点。在指代表达式检索任务中,P@1指标达到了32.5%,提升了19个百分点。在语义地理定位检索任务中,P@1指标达到了17.8%,是先前最佳结果的3倍以上。同时,在传统的场景分类和跨模态检索任务中,VLM2GeoVec也达到了与专门基线相当或更好的性能。

🎯 应用场景

VLM2GeoVec在遥感领域具有广泛的应用前景,例如灾害监测、城市规划、农业估产、环境评估等。通过统一检索和区域理解,可以更有效地分析卫星图像,提取有价值的信息,为决策提供支持。未来,该模型可以进一步扩展到其他领域,如自动驾驶、机器人导航等。

📄 摘要(原文)

Satellite imagery differs fundamentally from natural images: its aerial viewpoint, very high resolution, diverse scale variations, and abundance of small objects demand both region-level spatial reasoning and holistic scene understanding. Current remote-sensing approaches remain fragmented between dual-encoder retrieval models, which excel at large-scale cross-modal search but cannot interleave modalities, and generative assistants, which support region-level interpretation but lack scalable retrieval capabilities. We propose $\textbf{VLM2GeoVec}$, an instruction-following, single-encoder vision-language model trained contrastively to embed interleaved inputs (images, text, bounding boxes, and geographic coordinates) in a unified vector space. Our single encoder interleaves all inputs into one joint embedding trained with a contrastive loss, eliminating multi-stage pipelines and task-specific modules. To evaluate its versatility, we introduce $\textbf{RSMEB}$, a novel benchmark covering key remote-sensing embedding applications: scene classification; cross-modal search; compositional retrieval; visual-question answering; visual grounding and region-level reasoning; and semantic geospatial retrieval. On RSMEB, it achieves $\textbf{26.6%}$ P@1 on region-caption retrieval (+25 pp vs. dual-encoder baselines), $\textbf{32.5%}$ P@1 on referring-expression retrieval (+19 pp), and $\textbf{17.8%}$ P@1 on semantic geo-localization retrieval (over $3\times$ prior best), while matching or exceeding specialized baselines on conventional tasks such as scene classification and cross-modal retrieval. VLM2GeoVec unifies scalable retrieval with region-level spatial reasoning, enabling cohesive multimodal analysis in remote sensing. We will publicly release the code, checkpoints, and data upon acceptance.