GeoViSTA: Geospatial Vision-Tabular Transformer for Multimodal Environment Representation

📄 arXiv: 2605.14406v1 📥 PDF

作者: Yuhao Liu, Sadeer Al-Kindi, Ashok Veeraraghavan, Guha Balakrishnan

分类: cs.LG, cs.CV

发布日期: 2026-05-14


💡 一句话要点

GeoViSTA:用于多模态环境表征的地理空间视觉-表格Transformer

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间建模 多模态学习 视觉-表格Transformer 自监督学习 环境表征

📋 核心要点

  1. 现有地理空间基础模型缺乏对结构化社会经济表格数据的直接建模,限制了其对完整环境的理解。
  2. GeoViSTA通过双边交叉注意力和地理感知注意力机制,学习图像和表格数据的统一地理空间嵌入。
  3. GeoViSTA在预测疾病死亡率和火灾风险等下游任务中表现优于基线模型,验证了其有效性。

📝 摘要(中文)

本文提出GeoViSTA(Geospatial Vision-Tabular Transformer),一种视觉-表格架构,用于从共同配准的栅格图像和表格数据中学习统一的地理空间嵌入。现有的大规模地球观测图像预训练模型在自然和建筑环境的表征方面表现出色,但大多未直接建模通常以表格形式存储的结构化社会经济协变量,限制了其捕获完整环境的能力。GeoViSTA利用双边交叉注意力在模态间交换空间和语义信息,并由地理感知注意力机制引导,将连续图像块与不规则人口普查区令牌对齐。通过自监督联合掩码自动编码目标训练GeoViSTA,使其能够利用局部空间上下文和跨模态线索恢复缺失的图像块和表格行。实验结果表明,GeoViSTA的统一嵌入提高了线性探测在下游任务中的性能,优于基线模型,能够预测特定疾病的死亡率和预留区域的火灾风险频率。结果表明,将物理环境与结构化社会经济环境联合建模,可以为整体地理空间推理产生高度可迁移的表征。

🔬 方法详解

问题定义:现有地理空间基础模型主要关注地球观测图像,忽略了重要的结构化社会经济表格数据。这些数据对于理解复杂环境、社会和健康相关结果至关重要。现有方法无法有效地融合这两种模态的信息,导致对环境的理解不完整。

核心思路:GeoViSTA的核心思路是通过一个Transformer架构,同时处理地理空间图像数据和表格数据,并利用跨模态注意力机制,使两种模态的信息能够相互补充和增强。通过联合训练,模型能够学习到统一的地理空间嵌入,从而更好地理解环境。

技术框架:GeoViSTA的整体架构包含两个主要分支:一个处理图像数据,另一个处理表格数据。图像数据通过卷积神经网络(CNN)或视觉Transformer(ViT)进行特征提取,表格数据通过嵌入层进行特征表示。然后,使用双边交叉注意力机制,在两个分支之间进行信息交换。地理感知注意力机制用于将图像块与人口普查区令牌对齐。最后,通过联合掩码自动编码目标进行自监督训练。

关键创新:GeoViSTA的关键创新在于其双边交叉注意力和地理感知注意力机制。双边交叉注意力允许图像和表格数据相互学习,从而更好地融合两种模态的信息。地理感知注意力机制则考虑了地理空间关系,将图像块与对应的人口普查区令牌对齐,从而提高了模型的准确性。

关键设计:GeoViSTA使用自监督联合掩码自动编码目标进行训练。具体来说,随机掩盖一部分图像块和表格行,然后让模型根据剩余的信息预测被掩盖的部分。损失函数包括图像重建损失和表格数据重建损失。地理感知注意力机制通过计算图像块和人口普查区之间的地理距离来调整注意力权重。具体的参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoViSTA在预测疾病死亡率和火灾风险频率等下游任务中,线性探测性能优于基线模型。具体提升幅度未在摘要中给出,属于未知信息。该结果表明,联合建模物理环境和社会经济环境能够产生高度可迁移的表征,提升地理空间推理能力。

🎯 应用场景

GeoViSTA可应用于多种领域,包括疾病预测、火灾风险评估、城市规划、资源管理等。通过整合地理空间图像和结构化社会经济数据,可以更全面地了解环境,从而做出更明智的决策。该研究的潜在价值在于提高环境预测和风险评估的准确性,为可持续发展提供支持。

📄 摘要(原文)

Large-scale pretraining on Earth observation imagery has yielded powerful representations of the natural and built environment. However, most existing geospatial foundation models do not directly model the structured socioeconomic covariates typically stored in tabular form. This modality gap limits their ability to capture the complete total environment, which is critical for reasoning about complex environmental, social, and health-related outcomes. In this work, we propose GeoViSTA (Geospatial Vision-Tabular Transformer), a vision-tabular architecture that learns unified geospatial embeddings from co-registered gridded imagery and tabular data. GeoViSTA utilizes bilateral cross-attention to exchange spatial and semantic information across modalities, guided by a geography-aware attention mechanism that aligns continuous image patches with irregular census-tract tokens. We train GeoViSTA with a self-supervised joint masked-autoencoding objective, forcing it to recover missing image patches and tabular rows using local spatial context and cross-modal cues. Empirically, GeoViSTA's unified embeddings improve linear probing performance on high-impact downstream tasks, outperforming baselines in predicting disease-specific mortality and fire hazard frequency across held-out regions. These results demonstrate that jointly modeling the physical environment alongside structured socioeconomic context yields highly transferable representations for holistic geospatial inference.