Spatially-Weighted CLIP for Street-View Geo-localization

📄 arXiv: 2604.04357 📥 PDF

作者: Ting Han, Fengjiao Li, Chunsong Chen, Haoling Huang, Yiping Chen, Meiliu Wu

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出空间加权CLIP以解决街景地理定位问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 街景定位 空间自相关 对比学习 多模态学习 地理信息系统

📋 核心要点

  1. 现有的CLIP方法将所有非匹配样本视为同等负样本,未能有效利用地理信息。
  2. SW-CLIP通过引入空间自相关性和距离感知的软监督,优化了地理定位的表现。
  3. 在多城市数据集上的实验显示,SW-CLIP在准确性和空间一致性上均有显著提升。

📝 摘要(中文)

本文提出了一种新颖的空间加权CLIP(SW-CLIP)框架,旨在通过显式引入空间自相关性来改进街景地理定位。与传统的CLIP方法不同,SW-CLIP利用托布勒地理法则来建模地理关系,通过距离感知的软监督来处理非匹配样本。具体而言,本文引入了位置文本表示来编码地理位置,并用基于测地距离的空间加权软标签替代了一热编码的InfoNCE目标。此外,采用邻域一致性正则化来保持嵌入空间中的局部空间结构。实验结果表明,SW-CLIP显著提高了地理定位的准确性,减少了长尾错误,并增强了空间一致性。

🔬 方法详解

问题定义:本文旨在解决传统CLIP方法在街景地理定位中未能有效利用地理信息的问题,导致定位准确性不足和长尾错误频发。

核心思路:SW-CLIP通过引入空间自相关性,利用地理关系进行软监督,优化了非匹配样本的处理方式,从而提升了地理定位的准确性。

技术框架:SW-CLIP框架包括位置文本表示、空间加权软标签和邻域一致性正则化三个主要模块,整体流程通过这些模块协同工作来实现更好的地理定位效果。

关键创新:SW-CLIP的核心创新在于将地理关系纳入对比学习中,利用空间加权的软标签替代传统的一热编码目标,显著改善了模型的学习效果。

关键设计:在损失函数设计上,SW-CLIP采用了基于测地距离的空间加权策略,并在网络结构中引入了邻域一致性正则化,以保持嵌入空间的局部结构。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,SW-CLIP在多城市数据集上显著提高了地理定位的准确性,相较于标准CLIP,减少了长尾错误,并增强了空间一致性,展示了其在地理对齐方面的优势。

🎯 应用场景

该研究的潜在应用场景包括城市规划、自动驾驶、增强现实等领域。通过提高街景地理定位的准确性,SW-CLIP能够为智能交通系统和地理信息系统提供更可靠的数据支持,促进相关技术的发展与应用。

📄 摘要(原文)

This paper proposes Spatially-Weighted CLIP (SW-CLIP), a novel framework for street-view geo-localization that explicitly incorporates spatial autocorrelation into vision-language contrastive learning. Unlike conventional CLIP-based methods that treat all non-matching samples as equally negative, SW-CLIP leverages Tobler's First Law of Geography to model geographic relationships through distance-aware soft supervision. Specifically, we introduce a location-as-text representation to encode geographic positions and replace one-hot InfoNCE targets with spatially weighted soft labels derived from geodesic distance. Additionally, a neighborhood-consistency regularization is employed to preserve local spatial structure in the embedding space. Experiments on a multi-city dataset demonstrate that SW-CLIP significantly improves geo-localization accuracy, reduces long-tail errors, and enhances spatial coherence compared to standard CLIP. The results highlight the importance of shifting from semantic alignment to geographic alignment for robust geo-localization and provide a general paradigm for integrating spatial principles into multimodal representation learning.