Who Handles Orientation? Investigating Invariance in Feature Matching

📄 arXiv: 2604.11809v1 📥 PDF

作者: David Nordström, Johan Edstedt, Fredrik Kahl, Georg Bökman

分类: cs.CV

发布日期: 2026-04-13

🔗 代码/项目: GITHUB


💡 一句话要点

研究特征匹配中旋转不变性的融入位置,提升多模态和卫星图像匹配性能

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 图像匹配 旋转不变性 特征描述符 深度学习 三维视觉

📋 核心要点

  1. 现有图像匹配方法在处理大角度平面旋转时性能下降,缺乏鲁棒性,成为三维视觉的关键挑战。
  2. 通过研究在特征描述符和匹配器中融入旋转不变性的效果,探索更有效的旋转不变性学习策略。
  3. 实验表明,在描述符中引入旋转不变性与在匹配器中处理效果相当,且前者能加速匹配,并开源了两个高性能旋转鲁棒匹配器。

📝 摘要(中文)

在三维计算机视觉中,图像间关键点的匹配是一个核心问题。然而,现代匹配器在处理大平面内旋转时表现不佳。一个直接的缓解方法是通过数据增强学习旋转不变性。但是,旋转不变性应该在哪个阶段引入仍然不清楚。本文研究了现代稀疏匹配流程中的这个问题。通过在一个大型三维视觉数据集上进行训练,并在流行的图像匹配基准上进行评估,我们进行了广泛的实验。令人惊讶的是,我们发现,在描述符中引入旋转不变性与在匹配器中处理它产生相似的性能。然而,当在描述符中学习旋转不变性时,匹配器可以更快地实现旋转不变性,从而实现更快的旋转不变匹配器。此外,我们发现,大规模训练时,强制执行旋转不变性不会损害正向性能。最后,我们研究了旋转不变性随尺度的出现,发现增加训练数据量可以显著提高对旋转图像的泛化能力。我们发布了两个对平面内旋转具有鲁棒性的匹配器,它们在多模态(WxBS)、极端(HardMatch)和卫星图像匹配(SatAst)等方面实现了最先进的性能。代码可在https://github.com/davnords/loma 获取。

🔬 方法详解

问题定义:论文旨在解决图像匹配中,现有方法对平面内大角度旋转不鲁棒的问题。传统方法在处理旋转图像时,匹配精度显著下降,限制了其在实际场景中的应用,尤其是在多模态和卫星图像匹配等领域。

核心思路:论文的核心思路是研究在特征匹配流程的不同阶段(特征描述符和匹配器)引入旋转不变性对最终匹配性能的影响。通过对比分析,确定最佳的旋转不变性融入位置,从而提高匹配器对旋转图像的鲁棒性和效率。

技术框架:论文采用现代稀疏匹配流程作为研究框架,主要包含特征检测、特征描述和特征匹配三个阶段。研究重点在于特征描述和特征匹配阶段如何融入旋转不变性。通过修改特征描述符的网络结构或设计特定的匹配策略,使匹配器能够更好地处理旋转图像。

关键创新:论文的关键创新在于揭示了在特征描述符中引入旋转不变性与在匹配器中处理旋转不变性具有相似的性能,但前者可以加速匹配过程。此外,论文还发现,大规模训练可以显著提高模型对旋转图像的泛化能力,且强制旋转不变性不会损害正向性能。

关键设计:论文通过数据增强的方式,在训练数据中引入大量的旋转图像,从而使模型学习到旋转不变性。具体来说,可能采用了随机旋转角度的数据增强策略,并结合特定的损失函数,例如对比损失或三元组损失,来鼓励模型学习到旋转不变的特征表示。此外,论文可能还探索了不同的网络结构,例如使用旋转等变卷积或注意力机制,来增强模型的旋转不变性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在描述符中引入旋转不变性与在匹配器中处理旋转不变性具有相似的性能,但前者可以加速匹配过程。论文提出的方法在多模态(WxBS)、极端(HardMatch)和卫星图像匹配(SatAst)等基准测试中取得了state-of-the-art的性能。大规模训练显著提高了模型对旋转图像的泛化能力。

🎯 应用场景

该研究成果可广泛应用于三维重建、视觉定位、SLAM、图像检索、多视角图像匹配等领域。特别是在多模态图像匹配(如可见光与红外图像匹配)和卫星图像匹配等对旋转鲁棒性要求较高的场景中,具有重要的应用价值。该研究有助于提升相关系统的稳定性和精度,推动相关技术的发展。

📄 摘要(原文)

Finding matching keypoints between images is a core problem in 3D computer vision. However, modern matchers struggle with large in-plane rotations. A straightforward mitigation is to learn rotation invariance via data augmentation. However, it remains unclear at which stage rotation invariance should be incorporated. In this paper, we study this in the context of a modern sparse matching pipeline. We perform extensive experiments by training on a large collection of 3D vision datasets and evaluating on popular image matching benchmarks. Surprisingly, we find that incorporating rotation invariance already in the descriptor yields similar performance to handling it in the matcher. However, rotation invariance is achieved earlier in the matcher when it is learned in the descriptor, allowing for a faster rotation-invariant matcher. Further, we find that enforcing rotation invariance does not hurt upright performance when trained at scale. Finally, we study the emergence of rotation invariance through scale and find that increasing the training data size substantially improves generalization to rotated images. We release two matchers robust to in-plane rotations that achieve state-of-the-art performance on e.g. multi-modal (WxBS), extreme (HardMatch), and satellite image matching (SatAst). Code is available at https://github.com/davnords/loma.