S2Vec: Self-Supervised Geospatial Embeddings for the Built Environment
作者: Shushman Choudhury, Elad Aharoni, Chandrakumari Suvarna, Iveel Tsogsuren, Abdul Rahman Kreidieh, Chun-Ta Lu, Neha Arora
分类: cs.SI, cs.AI, cs.CV
发布日期: 2025-04-10 (更新: 2026-01-07)
期刊: ACM Transactions on Spatial Algorithms and Systems 2026
DOI: 10.1145/3787217
💡 一句话要点
S2Vec:面向建成环境的自监督地理空间嵌入学习框架
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理空间嵌入 自监督学习 建成环境 掩码自编码器 S2 Geometry 地理空间人工智能 零样本学习
📋 核心要点
- 现有方法难以对建成环境进行可扩展的通用表示,限制了地理空间人工智能应用的发展。
- S2Vec通过S2 Geometry划分区域,栅格化特征向量,并利用掩码自编码学习地理空间嵌入。
- 实验表明,S2Vec在社会经济任务上表现优异,尤其在零样本地理适应方面,并能通过多模态融合进一步提升性能。
📝 摘要(中文)
本文提出了一种名为S2Vec的自监督框架,用于学习建成环境的可扩展通用表示,这对于地理空间人工智能应用至关重要。S2Vec使用S2 Geometry库将大面积区域划分为离散的S2单元,并将单元内的建成环境特征向量栅格化为图像,然后对这些栅格化图像应用掩码自编码,以编码特征向量。这种方法产生了与任务无关的嵌入,可以捕获局部特征特性和更广泛的空间关系。我们在多个大规模地理空间预测任务上评估了S2Vec,包括随机训练/测试分割(插值)和零样本地理适应(外推)。实验表明,S2Vec在社会经济任务上表现出与多个基线相当的性能,尤其是在地理适应变体中,但在环境任务上仍有改进空间。我们还探索了将S2Vec嵌入与基于图像的嵌入在下游结合使用,表明这种多模态融合通常可以提高性能。我们的研究结果突出了S2Vec如何学习其提供的建成环境特征的有效通用地理空间表示,以及它如何在地理空间人工智能中补充其他数据模态。
🔬 方法详解
问题定义:现有方法缺乏对建成环境进行可扩展和通用的表示学习能力,难以适应各种地理空间人工智能任务,尤其是在零样本地理适应场景下,模型泛化能力不足。
核心思路:S2Vec的核心思路是将地理空间区域划分为离散的单元格,并将每个单元格内的建成环境特征向量转换为图像,然后利用掩码自编码器学习这些图像的嵌入表示。这种方法能够同时捕获局部特征和空间关系,从而生成更具表达能力的地理空间嵌入。
技术框架:S2Vec框架主要包含三个阶段:1) S2单元划分:使用S2 Geometry库将地理空间区域划分为离散的S2单元格。2) 特征栅格化:将每个S2单元格内的建成环境特征向量栅格化为图像。3) 掩码自编码:使用掩码自编码器对栅格化图像进行训练,学习地理空间嵌入。
关键创新:S2Vec的关键创新在于其利用S2 Geometry进行空间划分,并将地理空间特征转换为图像,从而能够利用卷积神经网络强大的特征提取能力。此外,使用掩码自编码器进行自监督学习,避免了对大量标注数据的依赖。
关键设计:S2 Geometry库用于将地球表面划分为层次化的离散单元格,每个单元格都有唯一的ID。掩码自编码器采用标准的Transformer结构,通过随机掩盖部分输入图像,并预测被掩盖的部分,从而学习图像的潜在表示。损失函数为均方误差(MSE),用于衡量重建图像与原始图像之间的差异。
📊 实验亮点
S2Vec在多个大规模地理空间预测任务上进行了评估,在社会经济任务上表现出与多个基线相当的性能,尤其是在零样本地理适应变体中。例如,在预测人口普查收入中位数任务上,S2Vec在地理外推场景下优于其他基线方法。此外,将S2Vec嵌入与图像嵌入融合后,性能得到进一步提升。
🎯 应用场景
S2Vec生成的地理空间嵌入可广泛应用于城市规划、资源管理、灾害预测、公共卫生等领域。例如,可以利用S2Vec嵌入预测城市人口密度、评估环境风险、优化交通网络等,为决策者提供数据支持,促进可持续发展。
📄 摘要(原文)
Scalable general-purpose representations of the built environment are crucial for geospatial artificial intelligence applications. This paper introduces S2Vec, a novel self-supervised framework for learning such geospatial embeddings. S2Vec uses the S2 Geometry library to partition large areas into discrete S2 cells, rasterizes built environment feature vectors within cells as images, and applies masked autoencoding on these rasterized images to encode the feature vectors. This approach yields task-agnostic embeddings that capture local feature characteristics and broader spatial relationships. We evaluate S2Vec on several large-scale geospatial prediction tasks, both random train/test splits (interpolation) and zero-shot geographic adaptation (extrapolation). Our experiments show S2Vec's competitive performance against several baselines on socioeconomic tasks, especially the geographic adaptation variant, with room for improvement on environmental tasks. We also explore combining S2Vec embeddings with image-based embeddings downstream, showing that such multimodal fusion can often improve performance. Our findings highlight how S2Vec can learn effective general-purpose geospatial representations of the built environment features it is provided, and how it can complement other data modalities in geospatial artificial intelligence.