UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations

作者: Dominik J. Mühlematter, Lin Che, Ye Hong, Martin Raubal, Nina Wiedemann

分类: cs.LG, cs.CV

发布日期: 2025-10-15

🔗 代码/项目: GITHUB

💡 一句话要点

UrbanFusion：基于随机多模态融合的对比学习，用于稳健的空间表征

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 地理空间数据 对比学习 Geo-Foundation Model 城市现象预测 Transformer 随机多模态融合

📋 核心要点

现有方法主要依赖于任务特定的模型，而空间表征的基础模型通常只支持有限的模态，缺乏多模态融合能力。
UrbanFusion采用随机多模态融合(SMF)，通过Transformer融合模块整合街景、遥感、地图和POI等多模态数据，学习统一表征。
实验结果表明，UrbanFusion在位置编码、多模态输入和区域泛化方面均优于现有GeoAI模型，并在全球56个城市的41项任务中表现出强大的泛化能力。

📝 摘要（中文）

本文提出UrbanFusion，一个基于Geo-Foundation Model (GeoFM)的框架，它采用随机多模态融合(SMF)来有效整合各种地理空间数据，以预测城市现象，如房价和公共健康指标。该框架利用模态特定的编码器处理不同类型的输入，包括街景图像、遥感数据、地图和兴趣点(POI)数据。这些多模态输入通过基于Transformer的融合模块进行整合，学习统一的表征。在56个城市进行的41项任务的广泛评估表明，与最先进的GeoAI模型相比，UrbanFusion具有强大的泛化能力和预测性能。它在位置编码方面优于先前的基础模型，支持推理期间的多模态输入，并且能够很好地泛化到训练期间未见过的区域。UrbanFusion可以在预训练和推理期间灵活地利用给定位置的可用模态子集，从而实现跨不同数据可用性场景的广泛适用性。

🔬 方法详解

问题定义：现有方法在预测城市现象时，要么依赖于任务特定的模型，泛化能力不足；要么空间表征模型仅支持有限模态，无法有效融合多源地理空间数据。这限制了模型在不同数据可用性场景下的应用。

核心思路：UrbanFusion的核心在于通过随机多模态融合（SMF）策略，训练一个能够灵活处理不同模态组合的Geo-Foundation Model。通过在训练过程中随机mask掉部分模态，模型能够学习到更鲁棒的表征，从而适应推理阶段不同模态数据可用性的情况。Transformer架构则用于融合不同模态的特征，学习统一的空间表征。

技术框架：UrbanFusion框架包含以下几个主要模块：1) 模态特定编码器：针对街景图像、遥感数据、地图和POI数据等不同模态，使用不同的编码器提取特征。2) Transformer融合模块：将不同模态的特征输入Transformer，学习多模态融合的表征。3) 对比学习目标：使用对比学习损失函数，鼓励相似位置的表征更加接近，不同位置的表征更加远离。4) 随机多模态融合（SMF）：在训练过程中，随机mask掉部分模态的数据，迫使模型学习更鲁棒的表征。

关键创新：UrbanFusion的关键创新在于随机多模态融合（SMF）策略。与以往的多模态融合方法不同，SMF允许模型在训练和推理阶段灵活地利用任意模态子集，从而提高了模型在不同数据可用性场景下的适应性。此外，UrbanFusion作为一个Geo-Foundation Model，能够通过对比学习学习到通用的空间表征，从而支持各种下游任务。

关键设计：模态特定编码器方面，图像数据可以使用预训练的ResNet等模型，POI数据可以使用embedding层。Transformer融合模块可以使用标准的Transformer结构，并根据输入模态的数量调整输入维度。对比学习损失函数可以使用InfoNCE loss。SMF的mask比例是一个重要的超参数，需要根据具体数据集进行调整。训练过程中，batch size和学习率等参数也需要仔细调整。

📊 实验亮点

UrbanFusion在56个城市的41项任务中进行了广泛评估，结果表明其性能优于现有的GeoAI模型。例如，在位置编码任务上，UrbanFusion显著优于先前的基础模型。此外，UrbanFusion还展现出良好的泛化能力，能够很好地适应训练期间未见过的区域。最重要的是，UrbanFusion能够灵活地利用任意模态子集进行推理，这使其在实际应用中具有很强的灵活性。

🎯 应用场景

UrbanFusion可应用于多种城市规划和管理领域，例如房价预测、公共健康指标预测、交通流量预测、犯罪风险评估等。其能够有效整合多源地理空间数据，提高预测精度和泛化能力，为城市决策提供更可靠的依据。未来，该模型可以进一步扩展到其他地理空间领域，例如环境监测、灾害预警等。

📄 摘要（原文）

Forecasting urban phenomena such as housing prices and public health indicators requires the effective integration of various geospatial data. Current methods primarily utilize task-specific models, while recent foundation models for spatial representations often support only limited modalities and lack multimodal fusion capabilities. To overcome these challenges, we present UrbanFusion, a Geo-Foundation Model (GeoFM) that features Stochastic Multimodal Fusion (SMF). The framework employs modality-specific encoders to process different types of inputs, including street view imagery, remote sensing data, cartographic maps, and points of interest (POIs) data. These multimodal inputs are integrated via a Transformer-based fusion module that learns unified representations. An extensive evaluation across 41 tasks in 56 cities worldwide demonstrates UrbanFusion's strong generalization and predictive performance compared to state-of-the-art GeoAI models. Specifically, it 1) outperforms prior foundation models on location-encoding, 2) allows multimodal input during inference, and 3) generalizes well to regions unseen during training. UrbanFusion can flexibly utilize any subset of available modalities for a given location during both pretraining and inference, enabling broad applicability across diverse data availability scenarios. All source code is available at https://github.com/DominikM198/UrbanFusion.

UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册