SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition
作者: Shanshan Wan, Yingmei Wei, Lai Kang, Tianrui Shen, Haixuan Wang, Yee-Hong Yang
分类: cs.CV
发布日期: 2025-02-28 (更新: 2025-12-31)
备注: This work has been accepted by Neurocomputing. The final version can be accessed via https://www.sciencedirect.com/science/article/pii/S0925231225032114
DOI: 10.1016/j.neucom.2025.132539
🔗 代码/项目: GITHUB
💡 一句话要点
SciceVPR:稳定跨图像相关增强的视觉定位模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉定位 图像检索 DINOv2 跨图像相关性 特征融合 自增强学习 机器人导航
📋 核心要点
- 现有VPR方法依赖DINOv2提取特征,但仅利用其最终输出,且跨图像相关性不稳定,导致检索结果波动。
- SciceVPR通过多层特征融合提取DINOv2的深层特征,并利用自增强编码器提炼图像间不变相关性,提升特征鲁棒性。
- 实验表明,SciceVPR在多个数据集上优于现有单阶段方法,并在Tokyo24/7数据集上与两阶段方法性能相当,Recall@1提升超过3%。
📝 摘要(中文)
视觉定位(VPR)是机器人和自主系统面临的主要挑战,其目标是仅基于图像的视觉特征来预测图像的位置。目前最先进的模型使用强大的基础模型DINOv2作为骨干网络来提取全局描述符。这些模型要么探索跨图像相关性,要么提出耗时的两阶段重排序策略以获得更好的性能。然而,现有工作仅利用DINOv2的最终输出,并且当前的跨图像相关性导致不稳定的检索结果。为了生成具有区分性和一致性的全局描述符,本文提出了一种用于VPR的稳定跨图像相关增强模型SciceVPR。该模型充分利用DINOv2在提供有用特征表示方面的潜力,这些特征表示隐式地编码了有价值的上下文知识。具体来说,SciceVPR首先使用多层特征融合模块从DINOv2的多层输出中捕获越来越详细的与任务相关的通道和空间信息。其次,SciceVPR将批次内图像之间的不变相关性视为有价值的知识,并将其提炼到所提出的自增强编码器中。通过这种方式,SciceVPR可以获得相当鲁棒的全局特征,而无需考虑域偏移(例如,在同一地点拍摄的图片之间光照、天气和视点的变化)。实验结果表明,基础变体SciceVPR-B在具有不同域条件的多数据集上,优于SOTA单阶段单输入方法。大型变体SciceVPR-L的性能与SOTA两阶段模型相当,在具有挑战性的Tokyo24/7数据集上,Recall@1比现有模型高出3%以上。我们的代码将在https://github.com/shuimushan/SciceVPR上发布。
🔬 方法详解
问题定义:视觉定位(VPR)旨在根据图像的视觉信息确定其地理位置。现有方法,特别是基于DINOv2的方法,虽然强大,但存在两个主要痛点:一是仅使用DINOv2的最终层输出,忽略了中间层包含的丰富信息;二是跨图像相关性的利用不稳定,容易受到光照、天气和视角变化等因素的影响,导致检索结果不一致。
核心思路:SciceVPR的核心思路是充分挖掘DINOv2各层特征的潜力,并利用图像间稳定的相关性知识来增强全局描述符的鲁棒性。通过多层特征融合,模型可以捕获更全面的图像信息。同时,通过自增强编码器,将图像间的不变相关性提炼到全局特征中,从而提高模型对域偏移的适应能力。
技术框架:SciceVPR的整体框架包括以下几个主要模块:1) 多层特征融合模块:从DINOv2的多个中间层提取特征,并进行融合,以获得更丰富的图像表示。2) 自增强编码器:利用图像批次内的相关性信息,通过自监督学习的方式,增强全局描述符的鲁棒性。3) 全局描述符生成模块:将融合后的特征输入到自增强编码器中,生成最终的全局描述符。
关键创新:SciceVPR的关键创新在于:1) 多层特征融合:不同于以往仅使用DINOv2最后一层特征的方法,SciceVPR充分利用了DINOv2各层特征,从而捕获更全面的图像信息。2) 自增强编码器:通过将图像间的不变相关性提炼到全局特征中,提高了模型对域偏移的鲁棒性,使得模型在不同光照、天气和视角下都能产生稳定的检索结果。
关键设计:1) 多层特征融合策略:具体融合哪些层的特征,以及如何进行融合(例如,使用concat、sum或attention机制)是需要仔细设计的。2) 自增强编码器的结构和损失函数:编码器的具体结构(例如,Transformer或CNN),以及用于提炼图像间相关性的损失函数(例如,对比损失或三元组损失)是影响模型性能的关键因素。3) 训练策略:如何有效地训练模型,例如,使用哪些数据集,以及如何进行数据增强,也会影响模型的最终性能。
🖼️ 关键图片
📊 实验亮点
SciceVPR-B在多个数据集上优于SOTA单阶段方法。更重要的是,SciceVPR-L在具有挑战性的Tokyo24/7数据集上,Recall@1比现有SOTA两阶段模型高出3%以上。这些结果表明,SciceVPR能够有效地提取鲁棒的全局描述符,并在复杂的域偏移条件下实现准确的视觉定位。
🎯 应用场景
SciceVPR在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人在复杂多变的环境中进行可靠的定位,从而实现自主导航和路径规划。此外,该技术还可以应用于城市管理、环境监测等领域,例如,通过分析街景图像来识别建筑物、道路和植被等信息。
📄 摘要(原文)
Visual Place Recognition (VPR) is a major challenge for robotics and autonomous systems, with the goal of predicting the location of an image based solely on its visual features. State-of-the-art (SOTA) models extract global descriptors using the powerful foundation model DINOv2 as backbone. These models either explore the cross-image correlation or propose a time-consuming two-stage re-ranking strategy to achieve better performance. However, existing works only utilize the final output of DINOv2, and the current cross-image correlation causes unstable retrieval results. To produce both discriminative and constant global descriptors, this paper proposes stable cross-image correlation enhanced model for VPR called SciceVPR. This model explores the full potential of DINOv2 in providing useful feature representations that implicitly encode valuable contextual knowledge. Specifically, SciceVPR first uses a multi-layer feature fusion module to capture increasingly detailed task-relevant channel and spatial information from the multi-layer output of DINOv2. Secondly, SciceVPR considers the invariant correlation between images within a batch as valuable knowledge to be distilled into the proposed self-enhanced encoder. In this way, SciceVPR can acquire fairly robust global features regardless of domain shifts (e.g., changes in illumination, weather and viewpoint between pictures taken in the same place). Experimental results demonstrate that the base variant, SciceVPR-B, outperforms SOTA one-stage methods with single input on multiple datasets with varying domain conditions. The large variant, SciceVPR-L, performs on par with SOTA two-stage models, scoring over 3% higher in Recall@1 compared to existing models on the challenging Tokyo24/7 dataset. Our code will be released at https://github.com/shuimushan/SciceVPR.