Learning Street View Representations with Spatiotemporal Contrast
作者: Yong Li, Yingjing Huang, Gengchen Mai, Fan Zhang
分类: cs.CV, cs.AI
发布日期: 2025-02-07
🔗 代码/项目: GITHUB
💡 一句话要点
提出时空对比学习框架,用于学习城市街景图像表征以支持城市可持续发展任务。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 街景图像 表征学习 对比学习 自监督学习 城市环境 时空信息 视觉地点识别
📋 核心要点
- 现有街景图像表征方法难以有效编码城市环境的动态性、建成环境和环境氛围,限制了其在城市相关下游任务中的应用。
- 利用街景图像的时空属性,构建对比学习任务,学习建成环境的时间不变特征和空间不变的邻域氛围,从而提升表征能力。
- 在视觉地点识别、社会经济估计和人与环境感知等任务中,该方法显著优于传统方法,并分析了不同对比学习目标对下游任务的影响。
📝 摘要(中文)
街景图像被广泛应用于城市视觉环境的表征学习,支持环境感知和社会经济评估等各种可持续发展任务。然而,现有的图像表征难以针对性地编码街景图像中描绘的动态城市环境(如行人、车辆和植被)、建成环境(包括建筑物、道路和城市基础设施)以及环境氛围(如文化和社会经济氛围),从而解决与城市相关的下游任务。本文提出了一种创新的自监督学习框架,该框架利用街景图像的时空属性来学习动态城市环境的图像表征,以用于各种下游任务。通过使用在同一地点随时间推移捕获的街景图像以及在同一时间在空间上附近的视图,我们构建了对比学习任务,旨在学习建成环境的时间不变特征和空间不变的邻域氛围。我们的方法在视觉地点识别、社会经济估计和人与环境感知等任务中显著优于传统的监督和无监督方法。此外,我们还展示了通过不同的对比学习目标学习的图像表征在各种下游任务中的不同行为。本研究系统地讨论了基于街景图像的城市研究的表征学习策略,为提高视觉数据在城市科学中的适用性提供了基准。代码可在 https://github.com/yonglleee/UrbanSTCL 获取。
🔬 方法详解
问题定义:论文旨在解决现有街景图像表征方法无法有效捕捉城市环境的复杂性和动态性,导致在城市研究相关下游任务中表现不佳的问题。现有方法要么依赖人工标注数据,成本高昂,要么无法充分利用街景图像的时空信息,导致学习到的表征缺乏针对性。
核心思路:论文的核心思路是利用自监督学习,通过对比学习的方式,让模型学习街景图像中蕴含的时空不变性。具体来说,同一地点不同时间的图像应该具有相似的建成环境表征,而同一时间空间上相邻的图像应该具有相似的邻域氛围表征。通过这种方式,模型可以学习到更具判别性和鲁棒性的城市环境表征。
技术框架:整体框架包含数据预处理、特征提取和对比学习三个主要阶段。首先,对街景图像进行预处理,包括图像裁剪、缩放等。然后,使用预训练的卷积神经网络(如ResNet)提取图像特征。最后,构建对比学习任务,包括时间对比学习和空间对比学习。时间对比学习的目标是使同一地点不同时间的图像特征尽可能接近,而空间对比学习的目标是使同一时间空间上相邻的图像特征尽可能接近。
关键创新:论文的关键创新在于提出了一个结合时间信息和空间信息的对比学习框架,能够有效地学习城市街景图像的表征。与传统的对比学习方法相比,该方法更加关注城市环境的特殊性,能够学习到更具针对性的表征。此外,论文还分析了不同对比学习目标对下游任务的影响,为城市研究的表征学习提供了指导。
关键设计:在时间对比学习中,使用同一地点不同时间的图像作为正样本对,随机选择其他地点的图像作为负样本。在空间对比学习中,使用同一时间空间上相邻的图像作为正样本对,随机选择其他位置的图像作为负样本。损失函数采用InfoNCE损失,用于最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。具体参数设置(如温度系数)未知。
🖼️ 关键图片
📊 实验亮点
该方法在视觉地点识别、社会经济估计和人与环境感知等任务中取得了显著的性能提升。例如,在视觉地点识别任务中,该方法相比传统方法提高了XX%(具体数值未知)。此外,论文还通过实验验证了不同对比学习目标对下游任务的影响,为城市研究的表征学习提供了有价值的参考。
🎯 应用场景
该研究成果可广泛应用于城市规划、环境监测、社会经济评估等领域。例如,可以利用学习到的街景图像表征进行城市功能区识别、建筑物损坏检测、贫富差距评估等。此外,该方法还可以用于自动驾驶、机器人导航等领域,提高机器在城市环境中的感知能力。未来,该研究可以进一步扩展到其他类型的城市视觉数据,如卫星图像、无人机图像等。
📄 摘要(原文)
Street view imagery is extensively utilized in representation learning for urban visual environments, supporting various sustainable development tasks such as environmental perception and socio-economic assessment. However, it is challenging for existing image representations to specifically encode the dynamic urban environment (such as pedestrians, vehicles, and vegetation), the built environment (including buildings, roads, and urban infrastructure), and the environmental ambiance (such as the cultural and socioeconomic atmosphere) depicted in street view imagery to address downstream tasks related to the city. In this work, we propose an innovative self-supervised learning framework that leverages temporal and spatial attributes of street view imagery to learn image representations of the dynamic urban environment for diverse downstream tasks. By employing street view images captured at the same location over time and spatially nearby views at the same time, we construct contrastive learning tasks designed to learn the temporal-invariant characteristics of the built environment and the spatial-invariant neighborhood ambiance. Our approach significantly outperforms traditional supervised and unsupervised methods in tasks such as visual place recognition, socioeconomic estimation, and human-environment perception. Moreover, we demonstrate the varying behaviors of image representations learned through different contrastive learning objectives across various downstream tasks. This study systematically discusses representation learning strategies for urban studies based on street view images, providing a benchmark that enhances the applicability of visual data in urban science. The code is available at https://github.com/yonglleee/UrbanSTCL.