GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing

📄 arXiv: 2603.25565v1 📥 PDF

作者: Xuran Hu, Zhitong Xiong, Zhongcheng Hong, Yifang Ban, Xiaoxiang Zhu, Wufan Zhao

分类: cs.CV

发布日期: 2026-03-26

备注: 18 pages, 4 figures


💡 一句话要点

提出GeoHeight-Bench,解决遥感领域大模型缺乏高度感知能力的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感 多模态学习 高度感知 基准测试 大型语言模型

📋 核心要点

  1. 现有遥感大模型缺乏对高度信息的有效利用,导致在复杂三维场景理解和推理能力不足。
  2. 论文提出GeoHeight-Bench基准测试,并设计数据生成流程,弥补遥感高度标注数据的不足。
  3. 构建GeoHeightChat基线模型,通过融合视觉语义和高度几何特征,提升模型的高度感知能力。

📝 摘要(中文)

当前地球观测领域的大型多模态模型(LMMs)通常忽略了关键的“垂直”维度,限制了它们在复杂遥感几何和灾害场景中的推理能力,在这些场景中,物理空间结构通常比平面视觉纹理更重要。为了弥合这一差距,我们引入了一个全面的评估框架,专门用于高度感知的遥感理解。首先,为了克服带注释数据的严重稀缺,我们开发了一个可扩展的、VLM驱动的数据生成流程,利用系统的提示工程和元数据提取。该流程构建了两个互补的基准:GeoHeight-Bench用于相对高度分析,以及更具挑战性的GeoHeight-Bench+用于整体的、地形感知的推理。此外,为了验证高度感知的必要性,我们提出了GeoHeightChat,这是第一个高度感知的遥感LMM基线。作为概念验证,我们的基线表明,将视觉语义与隐式注入的高度几何特征相结合,可以有效地缓解“垂直盲点”,成功地在现有光学模型中开启了一种新的交互式高度推理范式。

🔬 方法详解

问题定义:现有遥感领域的大型多模态模型在理解地球观测数据时,往往忽略了高度信息这一关键维度。这导致模型在处理涉及复杂地形、建筑物高度差异或灾害评估等任务时,无法准确理解场景的三维结构,从而影响推理的准确性。现有方法主要关注平面视觉纹理,缺乏对垂直空间关系的建模能力。

核心思路:论文的核心思路是通过构建包含高度信息的遥感数据集,并设计能够有效利用这些信息的模型,来提升遥感大模型的高度感知能力。具体而言,首先构建了GeoHeight-Bench基准测试,然后提出了GeoHeightChat模型,该模型通过融合视觉语义和高度几何特征,从而缓解了模型在垂直方向上的“盲点”。

技术框架:整体框架包含数据生成和模型构建两个主要部分。数据生成部分,利用VLM驱动的数据生成流程,通过提示工程和元数据提取,构建了GeoHeight-Bench和GeoHeight-Bench+两个数据集。模型构建部分,提出了GeoHeightChat模型,该模型将视觉信息和高度信息进行融合,从而实现高度感知的遥感理解。

关键创新:论文的关键创新在于提出了一个可扩展的、VLM驱动的数据生成流程,能够有效地生成包含高度信息的遥感数据集,从而克服了遥感领域高度标注数据稀缺的问题。此外,提出的GeoHeightChat模型,通过融合视觉语义和高度几何特征,有效地提升了模型的高度感知能力。

关键设计:数据生成流程中,使用了系统的提示工程,设计了不同的prompt来生成不同类型的问答对。在GeoHeightChat模型中,具体的高度特征注入方式和融合策略是关键设计,但论文摘要中未明确说明,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了GeoHeight-Bench和GeoHeight-Bench+两个基准测试,并构建了GeoHeightChat基线模型。实验结果表明,GeoHeightChat模型能够有效利用高度信息,提升模型在高度相关任务上的性能。具体的性能数据和提升幅度在摘要中未给出,需要查阅论文全文。

🎯 应用场景

该研究成果可应用于灾害评估、城市规划、三维地图构建等领域。通过提升遥感大模型的高度感知能力,可以更准确地理解复杂地形和建筑物的三维结构,为相关应用提供更可靠的数据支持。未来,该研究有望推动遥感技术在智慧城市、环境监测等领域的广泛应用。

📄 摘要(原文)

Current Large Multimodal Models (LMMs) in Earth Observation typically neglect the critical "vertical" dimension, limiting their reasoning capabilities in complex remote sensing geometries and disaster scenarios where physical spatial structures often outweigh planar visual textures. To bridge this gap, we introduce a comprehensive evaluation framework dedicated to height-aware remote sensing understanding. First, to overcome the severe scarcity of annotated data, we develop a scalable, VLM-driven data generation pipeline utilizing systematic prompt engineering and metadata extraction. This pipeline constructs two complementary benchmarks: GeoHeight-Bench for relative height analysis, and a more challenging GeoHeight-Bench+ for holistic, terrain-aware reasoning. Furthermore, to validate the necessity of height perception, we propose GeoHeightChat, the first height-aware remote sensing LMM baseline. Serving as a strong proof of concept, our baseline demonstrates that synergizing visual semantics with implicitly injected height geometric features effectively mitigates the "vertical blind spot", successfully unlocking a new paradigm of interactive height reasoning in existing optical models.