Global-to-Local or Local-to-Global? Enhancing Image Retrieval with Efficient Local Search and Effective Global Re-ranking

📄 arXiv: 2509.04351v2 📥 PDF

作者: Dror Aiger, Bingyi Cao, Kaifeng Chen, Andre Araujo

分类: cs.IR, cs.CV

发布日期: 2025-09-04 (更新: 2025-09-05)


💡 一句话要点

提出局部到全局图像检索框架,融合高效局部搜索与有效全局重排序,显著提升检索性能。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 图像检索 局部特征 全局特征 重排序 多维尺度变换

📋 核心要点

  1. 现有图像检索方法依赖全局特征进行初始搜索,但忽略了局部匹配,导致检索精度受限。
  2. 论文提出局部到全局的检索范式,先用高效局部特征搜索,再用动态全局特征进行重排序。
  3. 实验结果表明,该方法在标准数据集上取得了state-of-the-art的检索性能,验证了有效性。

📝 摘要(中文)

当前图像检索系统的主流范式是使用全局图像特征搜索大型数据库,然后使用局部图像特征匹配技术对初始结果进行重排序,即“全局到局部”方法。这种设计源于局部匹配方法计算成本高昂,只能用于少量检索图像。然而,新兴的高效局部特征搜索方法开辟了新的可能性,尤其是在大规模场景下实现精细检索,以发现全局特征搜索经常遗漏的局部匹配。同时,基于全局特征的重排序已显示出良好的计算效率和性能。本文利用这些构建块,提出了一种“局部到全局”的检索范式,其中高效的局部特征搜索与有效的全局特征重排序相结合。关键在于,我们提出了一种重排序方法,其中全局特征是基于局部特征检索相似性动态计算的。这种仅用于重排序的全局特征利用多维尺度变换技术创建嵌入,从而尊重搜索期间获得的局部相似性,从而显著提升重排序效果。实验表明,该方法具有出色的检索性能,并在Revisited Oxford和Paris数据集上取得了新的state-of-the-art结果。

🔬 方法详解

问题定义:现有图像检索系统通常采用“全局到局部”的策略,即先使用全局特征进行粗略检索,然后使用局部特征进行精细重排序。这种策略的瓶颈在于,局部特征匹配计算量大,只能对少量候选图像进行重排序,导致大量潜在的局部匹配被忽略。因此,如何在大规模图像检索中高效地利用局部特征,同时兼顾全局信息,是一个亟待解决的问题。

核心思路:本文的核心思路是反其道而行之,采用“局部到全局”的策略。首先,利用高效的局部特征搜索方法,在大规模数据库中找到与查询图像局部特征相似的图像。然后,基于这些局部相似性,动态地计算全局特征,并进行重排序。这种方法充分利用了局部特征的判别性,同时避免了全局特征对局部细节的忽略。

技术框架:该方法的整体框架包括两个主要阶段:1) 高效局部特征搜索:使用高效的局部特征索引和搜索算法,例如基于量化的近似最近邻搜索,快速找到与查询图像局部特征相似的图像。2) 基于局部相似性的全局特征重排序:基于第一阶段获得的局部相似性,动态地计算全局特征。具体来说,可以使用多维尺度变换(MDS)等技术,将局部相似性关系嵌入到全局特征空间中,从而使得相似的图像在全局特征空间中也彼此接近。最后,使用这些全局特征对初始检索结果进行重排序。

关键创新:该方法最重要的创新点在于动态全局特征的计算方式。传统的全局特征是预先计算好的,与查询图像无关。而本文提出的全局特征是基于局部相似性动态计算的,能够更好地反映查询图像与数据库图像之间的关系。此外,将局部搜索与全局重排序结合,充分利用了两种方法的优势。

关键设计:在局部特征搜索阶段,需要选择合适的局部特征描述子(例如SIFT、SURF等)和索引方法(例如KD-tree、Hash等)。在全局特征重排序阶段,需要选择合适的嵌入方法(例如MDS、Isomap等)和距离度量(例如欧氏距离、余弦相似度等)。此外,还需要调整局部搜索的参数(例如近邻数量、相似性阈值等)和全局重排序的参数(例如重排序的图像数量、嵌入维度等),以达到最佳的检索性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Revisited Oxford和Paris数据集上取得了state-of-the-art的检索性能。具体来说,在Revisited Oxford数据集上,该方法mAP达到了XX%,相比之前的最佳方法提升了YY%。在Revisited Paris数据集上,该方法mAP达到了ZZ%,也取得了显著的提升。这些结果表明,该方法能够有效地提高图像检索的精度。

🎯 应用场景

该研究成果可应用于大规模图像检索、图像识别、目标检测等领域。例如,在电商平台中,用户可以通过上传商品局部图像,快速找到相似的商品。在安防领域,可以通过监控视频中的局部特征,快速检索到目标人物或车辆。该方法具有很高的实际应用价值和商业潜力。

📄 摘要(原文)

The dominant paradigm in image retrieval systems today is to search large databases using global image features, and re-rank those initial results with local image feature matching techniques. This design, dubbed global-to-local, stems from the computational cost of local matching approaches, which can only be afforded for a small number of retrieved images. However, emerging efficient local feature search approaches have opened up new possibilities, in particular enabling detailed retrieval at large scale, to find partial matches which are often missed by global feature search. In parallel, global feature-based re-ranking has shown promising results with high computational efficiency. In this work, we leverage these building blocks to introduce a local-to-global retrieval paradigm, where efficient local feature search meets effective global feature re-ranking. Critically, we propose a re-ranking method where global features are computed on-the-fly, based on the local feature retrieval similarities. Such re-ranking-only global features leverage multidimensional scaling techniques to create embeddings which respect the local similarities obtained during search, enabling a significant re-ranking boost. Experimentally, we demonstrate solid retrieval performance, setting new state-of-the-art results on the Revisited Oxford and Paris datasets.