LoMa: Local Feature Matching Revisited

📄 arXiv: 2604.04931 📥 PDF

作者: David Nordström, Johan Edstedt, Georg Bökman, Jonathan Astermark, Anders Heyden, Viktor Larsson, Mårten Wadenbäck, Michael Felsberg, Fredrik Kahl

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出LoMa以提升局部特征匹配性能

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 局部特征匹配 3D视觉 数据驱动方法 模型训练 性能评估

📋 核心要点

  1. 现有局部特征匹配方法多依赖中等规模数据集,导致性能提升缓慢,难以应对复杂场景。
  2. LoMa方法通过结合大规模多样化数据和现代训练策略,提升了模型的匹配能力和准确性。
  3. 在HardMatch等多个基准测试中,LoMa的性能提升显著,超越了当前最优方法ALIKED+LightGlue,表现出色。

📝 摘要(中文)

局部特征匹配一直是3D视觉系统(如运动重建)的基础组成部分,但其进展相较于现代数据驱动方法滞后。本文提出LoMa方法,从数据驱动的角度重新审视局部特征匹配,结合大规模多样化数据、现代训练策略、扩展模型容量和计算能力,显著提升了性能。为应对现有基准测试的饱和,我们收集了1000对具有挑战性的图像对,构建了新的数据集HardMatch,并通过手动标注获得了真实对应关系。实验结果表明,LoMa在多个基准上均超越了现有最优方法,表现出色。

🔬 方法详解

问题定义:论文旨在解决局部特征匹配在复杂场景中的性能不足,现有方法多依赖于中等规模数据集,导致其在实际应用中的局限性。

核心思路:LoMa方法通过整合大规模和多样化的数据集,采用现代训练策略和扩展模型容量,旨在提升局部特征匹配的准确性和鲁棒性。

技术框架:整体架构包括数据收集、模型训练和性能评估三个主要阶段。首先,收集多样化的数据集HardMatch;其次,使用现代训练方法对模型进行优化;最后,通过一系列基准测试评估模型性能。

关键创新:LoMa的主要创新在于结合了大规模数据和现代训练策略,显著提升了特征匹配的性能,尤其是在复杂图像对的匹配任务中。与现有方法相比,LoMa在处理困难图像对时表现出更高的准确性。

关键设计:在模型设计中,采用了扩展的网络结构和优化的损失函数,以提高特征提取和匹配的能力。此外,模型训练过程中使用了多种数据增强技术,以增强模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LoMa在多个基准测试中表现优异,特别是在HardMatch上超越了ALIKED+LightGlue,提升幅度达到18.6 mAA。在WxBS、InLoc、RUBIK和IMC 2022等数据集上也分别取得了29.5 mAA、21.4 (1m, 10°)、24.2 AUC和12.4 mAA的显著提升,展示了其强大的性能。

🎯 应用场景

该研究的潜在应用领域包括3D重建、机器人视觉、增强现实等。通过提升局部特征匹配的性能,LoMa可以在复杂环境下实现更高效的视觉理解,推动相关技术的实际应用和发展。

📄 摘要(原文)

Local feature matching has long been a fundamental component of 3D vision systems such as Structure-from-Motion (SfM), yet progress has lagged behind the rapid advances of modern data-driven approaches. The newer approaches, such as feed-forward reconstruction models, have benefited extensively from scaling dataset sizes, whereas local feature matching models are still only trained on a few mid-sized datasets. In this paper, we revisit local feature matching from a data-driven perspective. In our approach, which we call LoMa, we combine large and diverse data mixtures, modern training recipes, scaled model capacity, and scaled compute, resulting in remarkable gains in performance. Since current standard benchmarks mainly rely on collecting sparse views from successful 3D reconstructions, the evaluation of progress in feature matching has been limited to relatively easy image pairs. To address the resulting saturation of benchmarks, we collect 1000 highly challenging image pairs from internet data into a new dataset called HardMatch. Ground truth correspondences for HardMatch are obtained via manual annotation by the authors. In our extensive benchmarking suite, we find that LoMa makes outstanding progress across the board, outperforming the state-of-the-art method ALIKED+LightGlue by +18.6 mAA on HardMatch, +29.5 mAA on WxBS, +21.4 (1m, 10$^\circ$) on InLoc, +24.2 AUC on RUBIK, and +12.4 mAA on IMC 2022. We release our code and models publicly atthis https URL.