JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba
作者: Xiaoyong Lu, Songlin Du
分类: cs.CV
发布日期: 2025-03-05
备注: CVPR 2025, Project page: https://leoluxxx.github.io/JamMa-page/
💡 一句话要点
提出JamMa:一种基于联合Mamba的超轻量级局部特征匹配方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 特征匹配 Mamba 轻量级网络 长程依赖 联合扫描
📋 核心要点
- 现有特征匹配方法依赖Transformer,计算复杂度高,难以兼顾性能与效率。
- 论文提出JamMa,一种基于Mamba的轻量级匹配器,通过联合扫描策略JEGO提升性能。
- 实验表明,JamMa在参数量和计算量更少的情况下,性能优于现有基于注意力的匹配器。
📝 摘要(中文)
现有的先进特征匹配器使用Transformer捕获长程依赖,但受到高空间复杂度的限制,导致训练成本高昂和推理延迟大。在性能和效率之间取得更好的平衡仍然是特征匹配中的一个挑战。受到Mamba线性复杂度O(N)的启发,我们提出了一种基于Mamba的超轻量级匹配器,名为JamMa,它可以在单个GPU上收敛,并在推理中实现令人印象深刻的性能-效率平衡。为了释放Mamba在特征匹配中的潜力,我们提出了一种具有扫描-合并策略的联合Mamba,名为JEGO,它实现了:(1)双图像联合扫描以实现高频互交互,(2)具有跳步的高效扫描以减少序列长度,(3)全局感受野,以及(4)全向特征表示。凭借上述特性,JEGO策略在特征匹配任务中显著优于VMamba和EVMamba中提出的扫描-合并策略。与基于注意力的稀疏和半稠密匹配器相比,JamMa展示了性能和效率之间的卓越平衡,以不到50%的参数和FLOP实现了更好的性能。
🔬 方法详解
问题定义:现有基于Transformer的特征匹配方法,虽然能够捕获长程依赖,但计算复杂度高,空间复杂度也高,导致训练困难,推理速度慢,难以在性能和效率之间取得平衡。因此,需要一种更轻量级、更高效的特征匹配方法。
核心思路:论文的核心思路是利用Mamba模型的线性复杂度优势,设计一种基于Mamba的特征匹配器。通过特殊的联合扫描策略(JEGO),使得Mamba能够有效地处理特征匹配任务,并在保证性能的同时,显著降低计算成本。
技术框架:JamMa的核心是Joint Mamba模块,它接收两张图像的特征作为输入,通过JEGO策略进行联合扫描和特征融合。JEGO策略包含以下步骤:首先,对两张图像的特征进行联合扫描,以实现高频的互交互;其次,采用跳步扫描,减少序列长度,降低计算量;然后,通过Mamba模块进行特征提取和长程依赖建模;最后,进行特征融合和匹配。
关键创新:论文的关键创新在于提出了JEGO(Joint Efficient Global Omnidirectional)策略,这是一种针对特征匹配任务定制的扫描-合并策略。与VMamba和EVMamba等方法相比,JEGO能够更好地实现双图像的联合扫描,从而实现高频互交互,并获得全局感受野和全向特征表示。
关键设计:JEGO策略的关键设计包括:(1) 联合扫描:同时扫描两张图像的特征,使得Mamba能够直接建模它们之间的关系。(2) 跳步扫描:通过跳过部分像素,减少序列长度,降低计算量。(3) 全局感受野:通过多层Mamba模块,逐步扩大感受野,最终实现全局感受野。(4) 全向特征表示:通过不同的扫描方向,获得全向的特征表示。此外,论文还对Mamba模块的参数进行了优化,以适应特征匹配任务的特点。
🖼️ 关键图片
📊 实验亮点
JamMa在特征匹配任务上取得了显著的性能提升,同时显著降低了计算成本。与基于注意力的稀疏和半稠密匹配器相比,JamMa在参数量和FLOPs减少超过50%的情况下,实现了更好的匹配精度。实验结果表明,JamMa在性能和效率之间取得了卓越的平衡。
🎯 应用场景
JamMa具有广泛的应用前景,包括图像配准、三维重建、视觉SLAM、增强现实等。由于其轻量级的特性,尤其适用于移动设备和嵌入式系统等资源受限的平台。未来,可以进一步探索JamMa在其他计算机视觉任务中的应用,例如目标检测、图像分割等。
📄 摘要(原文)
Existing state-of-the-art feature matchers capture long-range dependencies with Transformers but are hindered by high spatial complexity, leading to demanding training and highlatency inference. Striking a better balance between performance and efficiency remains a challenge in feature matching. Inspired by the linear complexity O(N) of Mamba, we propose an ultra-lightweight Mamba-based matcher, named JamMa, which converges on a single GPU and achieves an impressive performance-efficiency balance in inference. To unlock the potential of Mamba for feature matching, we propose Joint Mamba with a scan-merge strategy named JEGO, which enables: (1) Joint scan of two images to achieve high-frequency mutual interaction, (2) Efficient scan with skip steps to reduce sequence length, (3) Global receptive field, and (4) Omnidirectional feature representation. With the above properties, the JEGO strategy significantly outperforms the scan-merge strategies proposed in VMamba and EVMamba in the feature matching task. Compared to attention-based sparse and semi-dense matchers, JamMa demonstrates a superior balance between performance and efficiency, delivering better performance with less than 50% of the parameters and FLOPs.