ETO:Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses
作者: Junjie Ni, Guofeng Zhang, Guanglin Li, Yijin Li, Xinyang Liu, Zhaoyang Huang, Hujun Bao
分类: cs.CV
发布日期: 2024-10-30 (更新: 2025-01-10)
💡 一句话要点
ETO:通过组织多重单应性假设实现高效的Transformer局部特征匹配
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 局部特征匹配 Transformer 单应性假设 单向交叉注意力 高效匹配 图像配准 计算机视觉
📋 核心要点
- 现有局部特征匹配方法在效率和精度之间存在权衡,CNN方法速度快但精度较低,Transformer方法精度高但速度慢。
- ETO通过构建多重单应性假设来近似连续对应关系,并采用单向交叉注意力加速特征细化,从而提高Transformer匹配效率。
- 实验表明,ETO在保持与LoFTR相当的匹配精度的同时,推理速度提升至4倍,甚至超越了CNN方法。
📝 摘要(中文)
本文致力于解决局部特征匹配的效率问题。近年来,纯粹基于CNN和Transformer的方法涌现,并结合了深度学习技术。虽然基于CNN的方法通常在匹配速度方面表现出色,但基于Transformer的方法往往能提供更准确的匹配。我们提出了一种高效的基于Transformer的网络架构用于局部特征匹配。该技术建立在构建多个单应性假设以逼近真实世界中的连续对应关系,并使用单向交叉注意力来加速细化。在YFCC100M数据集上,我们的匹配精度与最先进的基于Transformer的架构LoFTR具有竞争力,同时推理速度提高了4倍,甚至优于基于CNN的方法。在Megadepth、ScanNet和HPatches等其他开放数据集上的全面评估证明了我们方法的有效性,突出了其在显著增强各种下游应用方面的潜力。
🔬 方法详解
问题定义:论文旨在解决局部特征匹配中Transformer模型计算效率低下的问题。现有的Transformer方法虽然匹配精度高,但计算复杂度高,难以满足实时性要求,限制了其在实际场景中的应用。因此,如何在保证匹配精度的前提下,提升Transformer模型的匹配速度是本文要解决的核心问题。
核心思路:论文的核心思路是利用多重单应性假设来近似图像间的连续对应关系,并将Transformer中的双向交叉注意力替换为单向交叉注意力,从而降低计算复杂度,提升匹配速度。多重单应性假设将全局对应关系分解为多个局部单应性变换,简化了对应关系的搜索空间。单向交叉注意力则减少了注意力计算的次数,进一步加速了特征细化过程。
技术框架:ETO的整体框架包含以下几个主要模块:1) 特征提取模块:用于提取图像的局部特征。2) 单应性假设生成模块:生成多个单应性假设,用于近似图像间的对应关系。3) 特征变换模块:根据单应性假设将特征变换到同一空间。4) 单向交叉注意力模块:利用单向交叉注意力机制进行特征细化。5) 匹配决策模块:根据细化后的特征进行匹配决策。
关键创新:ETO的关键创新在于:1) 提出了基于多重单应性假设的局部特征匹配方法,有效降低了对应关系的搜索空间。2) 采用了单向交叉注意力机制,显著减少了注意力计算的次数,提升了匹配速度。3) 将多重单应性假设和单向交叉注意力机制有机结合,在保证匹配精度的前提下,实现了高效的Transformer局部特征匹配。
关键设计:在单应性假设生成模块中,采用了RANSAC算法来估计单应性矩阵。在单向交叉注意力模块中,使用了可学习的位置编码来增强特征的表达能力。损失函数方面,采用了对比损失和三元组损失相结合的方式,以提高匹配的鲁棒性。网络结构方面,采用了轻量级的Transformer结构,以减少参数量和计算量。
🖼️ 关键图片
📊 实验亮点
ETO在YFCC100M数据集上取得了与LoFTR相当的匹配精度,同时推理速度提升了4倍,甚至超过了基于CNN的方法。在Megadepth、ScanNet和HPatches等数据集上的实验结果也表明,ETO在匹配精度和效率方面均优于现有方法,具有显著的优势。
🎯 应用场景
ETO高效的局部特征匹配方法可广泛应用于三维重建、视觉定位、SLAM、图像拼接、目标识别等领域。其快速的匹配速度使其能够满足实时性要求较高的应用场景,例如增强现实、机器人导航等。未来,该方法有望进一步扩展到视频匹配、跨模态匹配等更广泛的应用领域。
📄 摘要(原文)
We tackle the efficiency problem of learning local feature matching. Recent advancements have given rise to purely CNN-based and transformer-based approaches, each augmented with deep learning techniques. While CNN-based methods often excel in matching speed, transformer-based methods tend to provide more accurate matches. We propose an efficient transformer-based network architecture for local feature matching. This technique is built on constructing multiple homography hypotheses to approximate the continuous correspondence in the real world and uni-directional cross-attention to accelerate the refinement. On the YFCC100M dataset, our matching accuracy is competitive with LoFTR, a state-of-the-art transformer-based architecture, while the inference speed is boosted to 4 times, even outperforming the CNN-based methods. Comprehensive evaluations on other open datasets such as Megadepth, ScanNet, and HPatches demonstrate our method's efficacy, highlighting its potential to significantly enhance a wide array of downstream applications.