UrbanFM: Scaling Urban Spatio-Temporal Foundation Models
作者: Wei Chen, Yuqian Wu, Junle Chen, Xiaofang Zhou, Yuxuan Liang
分类: cs.LG, cs.AI
发布日期: 2026-02-24
💡 一句话要点
UrbanFM:构建城市时空大模型,实现跨城市零样本泛化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 城市计算 时空数据 基础模型 零样本学习 自注意力机制
📋 核心要点
- 现有城市计算模型通常针对特定场景设计,缺乏跨区域和任务的泛化能力,阻碍了城市智能的发展。
- UrbanFM通过数据、计算和架构三个维度的缩放,构建城市时空基础模型,旨在提升模型的通用性和可扩展性。
- 实验表明,UrbanFM在未见过的城市和任务中表现出卓越的零样本泛化能力,为城市时空建模提供了新的方向。
📝 摘要(中文)
城市系统是动态复杂系统,持续产生时空数据流,蕴含人类移动和城市演变的基本规律。尽管科学智能已见证了基础模型在基因组学和气象学等学科中的变革力量,但由于“特定场景”模型过度拟合特定区域或任务,城市计算仍然是分散的,阻碍了其泛化能力。为了弥合这一差距,并推进城市系统的时空基础模型,我们采用缩放作为中心视角,并系统地研究了两个关键问题:缩放什么以及如何缩放。基于第一性原理分析,我们确定了三个关键维度:异质性、相关性和动态性,并将这些原则与城市时空数据的基本科学属性对齐。具体来说,为了通过数据缩放解决异质性问题,我们构建了WorldST。这个十亿级语料库将来自100多个全球城市的各种物理信号(如交通流量和速度)标准化为统一的数据格式。为了实现用于建模相关性的计算缩放,我们引入了MiniST单元,这是一种新颖的分割机制,可将连续时空场离散化为可学习的计算单元,以统一基于网格和基于传感器的观测表示。最后,为了通过架构缩放解决动态性问题,我们提出了UrbanFM,这是一种极简的自注意力架构,旨在通过有限的归纳偏置,自主地从海量数据中学习动态时空依赖关系。此外,我们还建立了迄今为止最大规模的城市时空基准EvalST。大量的实验表明,UrbanFM在未见过的城市和任务中实现了卓越的零样本泛化,标志着迈向大规模城市时空基础模型的关键第一步。
🔬 方法详解
问题定义:现有城市计算模型通常是针对特定城市或特定任务设计的,例如交通流量预测或人群密度估计。这些模型难以泛化到新的城市或新的任务,需要针对每个新场景重新训练,成本高昂。现有方法缺乏对城市时空数据异质性、相关性和动态性的有效建模,导致模型性能受限。
核心思路:UrbanFM的核心思路是通过大规模的数据、计算和架构缩放,构建一个通用的城市时空基础模型。该模型能够从海量城市时空数据中学习到通用的时空模式和依赖关系,从而实现跨城市和跨任务的零样本泛化。这种方法借鉴了自然语言处理和计算机视觉领域中预训练模型的成功经验。
技术框架:UrbanFM的整体框架包括三个主要组成部分:WorldST数据集、MiniST单元和UrbanFM模型。WorldST是一个大规模的城市时空数据集,包含了来自100多个城市的各种时空数据,例如交通流量、速度、人口密度等。MiniST单元是一种新的分割机制,用于将连续的时空场离散化为可学习的计算单元,从而统一了基于网格和基于传感器的观测表示。UrbanFM模型是一个基于自注意力机制的极简架构,旨在从海量数据中学习动态时空依赖关系。
关键创新:UrbanFM的关键创新在于其系统性的缩放方法,包括数据缩放(WorldST)、计算缩放(MiniST)和架构缩放(UrbanFM)。WorldST数据集的构建解决了城市时空数据异质性的问题,MiniST单元的引入实现了对不同类型时空数据的统一表示,UrbanFM模型的极简设计降低了模型的复杂度和计算成本,同时保证了模型的泛化能力。
关键设计:UrbanFM模型采用了一种极简的自注意力架构,减少了归纳偏置,从而允许模型自主地从数据中学习时空依赖关系。MiniST单元的设计考虑了不同类型时空数据的特点,例如网格数据和传感器数据,并采用不同的离散化方法。WorldST数据集的构建过程中,对不同城市的数据进行了标准化处理,以消除数据异质性的影响。
📊 实验亮点
UrbanFM在EvalST基准测试中取得了显著的成果,在多个城市和任务上实现了零样本泛化。例如,在交通流量预测任务中,UrbanFM在未见过的城市上的表现优于传统的基于特定城市数据训练的模型。实验结果表明,UrbanFM能够有效地学习到通用的城市时空模式,并将其泛化到新的场景中。
🎯 应用场景
UrbanFM具有广泛的应用前景,例如智能交通管理、城市规划、公共安全、环境监测等。它可以用于预测交通流量、优化交通信号灯、评估城市发展规划、预测犯罪热点、监测空气质量等。通过零样本泛化能力,UrbanFM可以快速部署到新的城市和新的任务中,降低了城市智能应用的开发成本。
📄 摘要(原文)
Urban systems, as dynamic complex systems, continuously generate spatio-temporal data streams that encode the fundamental laws of human mobility and city evolution. While AI for Science has witnessed the transformative power of foundation models in disciplines like genomics and meteorology, urban computing remains fragmented due to "scenario-specific" models, which are overfitted to specific regions or tasks, hindering their generalizability. To bridge this gap and advance spatio-temporal foundation models for urban systems, we adopt scaling as the central perspective and systematically investigate two key questions: what to scale and how to scale. Grounded in first-principles analysis, we identify three critical dimensions: heterogeneity, correlation, and dynamics, aligning these principles with the fundamental scientific properties of urban spatio-temporal data. Specifically, to address heterogeneity through data scaling, we construct WorldST. This billion-scale corpus standardizes diverse physical signals, such as traffic flow and speed, from over 100 global cities into a unified data format. To enable computation scaling for modeling correlations, we introduce the MiniST unit, a novel split mechanism that discretizes continuous spatio-temporal fields into learnable computational units to unify representations of grid-based and sensor-based observations. Finally, addressing dynamics via architecture scaling, we propose UrbanFM, a minimalist self-attention architecture designed with limited inductive biases to autonomously learn dynamic spatio-temporal dependencies from massive data. Furthermore, we establish EvalST, the largest-scale urban spatio-temporal benchmark to date. Extensive experiments demonstrate that UrbanFM achieves remarkable zero-shot generalization across unseen cities and tasks, marking a pivotal first step toward large-scale urban spatio-temporal foundation models.