Spatially-Weighted CLIP for Street-View Geo-localization

作者: Ting Han, Fengjiao Li, Chunsong Chen, Haoling Huang, Yiping Chen, Meiliu Wu

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出空间加权CLIP以解决街景地理定位问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 街景定位 空间自相关 对比学习 多模态学习 地理信息系统

📋 核心要点

现有的CLIP方法将所有非匹配样本视为同等负样本，未能有效利用地理信息。
SW-CLIP通过引入空间自相关性和距离感知的软监督，优化了地理定位的表现。
在多城市数据集上的实验显示，SW-CLIP在准确性和空间一致性上均有显著提升。

📝 摘要（中文）

本文提出了一种新颖的空间加权CLIP（SW-CLIP）框架，旨在通过显式引入空间自相关性来改进街景地理定位。与传统的CLIP方法不同，SW-CLIP利用托布勒地理法则来建模地理关系，通过距离感知的软监督来处理非匹配样本。具体而言，本文引入了位置文本表示来编码地理位置，并用基于测地距离的空间加权软标签替代了一热编码的InfoNCE目标。此外，采用邻域一致性正则化来保持嵌入空间中的局部空间结构。实验结果表明，SW-CLIP显著提高了地理定位的准确性，减少了长尾错误，并增强了空间一致性。

🔬 方法详解

问题定义：本文旨在解决传统CLIP方法在街景地理定位中未能有效利用地理信息的问题，导致定位准确性不足和长尾错误频发。

核心思路：SW-CLIP通过引入空间自相关性，利用地理关系进行软监督，优化了非匹配样本的处理方式，从而提升了地理定位的准确性。

技术框架：SW-CLIP框架包括位置文本表示、空间加权软标签和邻域一致性正则化三个主要模块，整体流程通过这些模块协同工作来实现更好的地理定位效果。

关键创新：SW-CLIP的核心创新在于将地理关系纳入对比学习中，利用空间加权的软标签替代传统的一热编码目标，显著改善了模型的学习效果。

关键设计：在损失函数设计上，SW-CLIP采用了基于测地距离的空间加权策略，并在网络结构中引入了邻域一致性正则化，以保持嵌入空间的局部结构。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SW-CLIP在多城市数据集上显著提高了地理定位的准确性，相较于标准CLIP，减少了长尾错误，并增强了空间一致性，展示了其在地理对齐方面的优势。

🎯 应用场景

该研究的潜在应用场景包括城市规划、自动驾驶、增强现实等领域。通过提高街景地理定位的准确性，SW-CLIP能够为智能交通系统和地理信息系统提供更可靠的数据支持，促进相关技术的发展与应用。

📄 摘要（原文）

This paper proposes Spatially-Weighted CLIP (SW-CLIP), a novel framework for street-view geo-localization that explicitly incorporates spatial autocorrelation into vision-language contrastive learning. Unlike conventional CLIP-based methods that treat all non-matching samples as equally negative, SW-CLIP leverages Tobler's First Law of Geography to model geographic relationships through distance-aware soft supervision. Specifically, we introduce a location-as-text representation to encode geographic positions and replace one-hot InfoNCE targets with spatially weighted soft labels derived from geodesic distance. Additionally, a neighborhood-consistency regularization is employed to preserve local spatial structure in the embedding space. Experiments on a multi-city dataset demonstrate that SW-CLIP significantly improves geo-localization accuracy, reduces long-tail errors, and enhances spatial coherence compared to standard CLIP. The results highlight the importance of shifting from semantic alignment to geographic alignment for robust geo-localization and provide a general paradigm for integrating spatial principles into multimodal representation learning.

Spatially-Weighted CLIP for Street-View Geo-localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理