CM-Bench: A Comprehensive Cross-Modal Feature Matching Benchmark Bridging Visible and Infrared Images

📄 arXiv: 2603.12690v1 📥 PDF

作者: Liangzheng Sun, Mengfan He, Xingyu Shao, Binbin Li, Zhiqiang Yan, Chunyu Li, Ziyang Meng, Fei Xing

分类: cs.CV

发布日期: 2026-03-13

🔗 代码/项目: GITHUB


💡 一句话要点

构建红外-可见光跨模态特征匹配基准CM-Bench,促进跨模态视觉应用

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 跨模态特征匹配 红外-可见光图像 基准测试 地理定位 自适应预处理

📋 核心要点

  1. 跨模态特征匹配面临显著的外观差异挑战,缺乏标准化的评估基准阻碍了研究进展。
  2. 构建CM-Bench基准,包含多种算法和数据集,并提出自适应预处理前端以提升匹配效果。
  3. 通过单应性估计、相对姿态估计和地理定位等任务,全面评估现有算法,并提供新的红外-卫星数据集。

📝 摘要(中文)

本文提出了一个全面的跨模态特征匹配基准CM-Bench,旨在弥合可见光和红外图像之间特征匹配研究的差距。由于跨模态图像外观差异显著,特征匹配仍然具有挑战性。CM-Bench包含了30种特征匹配算法,涵盖了多种跨模态数据集。具体来说,论文总结了最先进的传统方法和基于深度学习的方法,并将它们分为稀疏、半稠密和稠密方法。这些方法通过单应性估计、相对姿态估计和基于特征匹配的地理定位等任务进行评估。此外,论文还引入了一个基于分类网络的自适应预处理前端,可以在匹配之前自动选择合适的增强策略。论文还提供了一个新的红外-卫星跨模态数据集,该数据集具有手动标注的ground-truth对应关系,用于实际的地理定位评估。数据集和资源将在https://github.com/SLZ98/CM-Bench上提供。

🔬 方法详解

问题定义:红外-可见光图像的跨模态特征匹配由于模态差异大,一直是计算机视觉领域的难题。现有方法在处理这种差异时缺乏统一的评估标准,难以比较不同算法的优劣,阻碍了该领域的发展。此外,现有数据集的规模和多样性不足,难以充分测试算法的泛化能力。

核心思路:论文的核心思路是构建一个全面的基准测试平台CM-Bench,包含多样化的数据集和评估指标,为跨模态特征匹配算法提供公平、客观的评估环境。同时,提出自适应预处理方法,针对不同图像选择合适的增强策略,以减小模态差异。

技术框架:CM-Bench的整体框架包括三个主要部分:1) 数据集:收集并整理了多种红外-可见光图像数据集,并新增了一个红外-卫星跨模态数据集,用于地理定位评估。2) 算法库:包含了30种特征匹配算法,涵盖了传统方法和基于深度学习的方法,并将其分为稀疏、半稠密和稠密方法。3) 评估指标:设计了多种评估指标,包括单应性估计、相对姿态估计和基于特征匹配的地理定位精度。此外,还包含一个自适应预处理前端,利用分类网络自动选择图像增强策略。

关键创新:论文的关键创新在于构建了一个全面的跨模态特征匹配基准CM-Bench,弥补了该领域缺乏标准化评估平台的空白。此外,提出的自适应预处理前端能够根据图像内容自动选择合适的增强策略,有效减小模态差异,提升匹配精度。新增的红外-卫星跨模态数据集为地理定位应用提供了新的测试数据。

关键设计:自适应预处理前端采用分类网络,输入是红外和可见光图像,输出是图像增强策略的选择。分类网络的具体结构未知,但其目标是学习图像特征与最佳增强策略之间的映射关系。数据集的构建过程中,手动标注了红外-卫星图像的ground-truth对应关系,保证了地理定位评估的准确性。评估指标的选择兼顾了匹配的准确性和鲁棒性,能够全面反映算法的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CM-Bench基准测试了30种特征匹配算法,并提供了详细的性能评估报告。实验结果表明,基于深度学习的方法在跨模态特征匹配任务中通常优于传统方法,但仍存在很大的提升空间。自适应预处理前端能够有效提升匹配精度,尤其是在模态差异较大的情况下。新增的红外-卫星数据集为地理定位任务提供了新的测试平台。

🎯 应用场景

该研究成果可广泛应用于跨模态视觉定位、导航和感知等领域。例如,在无人驾驶中,可以利用红外图像在恶劣天气条件下进行目标检测和跟踪,结合可见光图像提供更丰富的场景信息。在安防监控领域,可以实现全天候的监控和识别。此外,该基准的发布将促进跨模态特征匹配算法的进一步发展。

📄 摘要(原文)

Infrared-visible (IR-VIS) feature matching plays an essential role in cross-modality visual localization, navigation and perception. Along with the rapid development of deep learning techniques, a number of representative image matching methods have been proposed. However, crossmodal feature matching is still a challenging task due to the significant appearance difference. A significant gap for cross-modal feature matching research lies in the absence of standardized benchmarks and metrics for evaluations. In this paper, we introduce a comprehensive cross-modal feature matching benchmark, CM-Bench, which encompasses 30 feature matching algorithms across diverse cross-modal datasets. Specifically, state-of-the-art traditional and deep learning-based methods are first summarized and categorized into sparse, semidense, and dense methods. These methods are evaluated by different tasks including homography estimation, relative pose estimation, and feature-matching-based geo-localization. In addition, we introduce a classification-network-based adaptive preprocessing front-end that automatically selects suitable enhancement strategies before matching. We also present a novel infrared-satellite cross-modal dataset with manually annotated ground-truth correspondences for practical geo-localization evaluation. The dataset and resource will be available at: https://github.com/SLZ98/CM-Bench.