Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching

📄 arXiv: 2507.19118v1 📥 PDF

作者: Abu Sadat Mohammad Salehin Amit, Xiaoli Zhang, Md Masum Billa Shagar, Zhaojun Liu, Xiongfei Li, Fanlong Meng

分类: cs.CV

发布日期: 2025-07-25

DOI: 10.1109/PRML66062.2025.11160240


💡 一句话要点

提出跨时空融合注意力机制CSTF,解决遥感图像跨模态匹配中的特征描述难题。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像匹配 跨模态学习 特征融合 注意力机制 目标检测

📋 核心要点

  1. 跨模态遥感图像匹配面临几何和辐射差异带来的特征描述挑战,现有方法难以有效捕捉跨模态相似性。
  2. 提出跨时空融合注意力机制CSTF,通过融合尺度不变关键点并利用对应图和分类任务增强特征表示。
  3. 在HRSC2016和DOTA数据集上,CSTF在目标检测任务中取得了state-of-the-art的性能,mAP分别达到90.99%和90.86%。

📝 摘要(中文)

由于多模态遥感图像之间存在显著的几何和辐射差异,有效地描述跨模态图像匹配的特征仍然是一项具有挑战性的任务。现有方法主要在全连接层提取特征,但通常无法有效地捕捉跨模态相似性。我们提出了一种跨时空融合(CSTF)机制,通过整合在参考图像和查询图像中独立检测到的尺度不变关键点来增强特征表示。我们的方法通过两种方式改进特征匹配:首先,通过创建同时利用来自多个图像区域的信息的对应图;其次,通过使用SoftMax和全卷积网络(FCN)层将相似性匹配过程重新定义为分类任务。这种双重方法使CSTF能够保持对独特局部特征的敏感性,同时结合更广泛的上下文信息,从而实现跨不同遥感模态的鲁棒匹配。为了证明改进的特征匹配的实际效用,我们使用HRSC2016和DOTA基准数据集评估了CSTF在目标检测任务中的性能。我们的方法实现了最先进的性能,在HRSC2016上平均mAP为90.99%,在DOTA上为90.86%,优于现有模型。CSTF模型保持了计算效率,推理速度为12.5 FPS。这些结果验证了我们的跨模态特征匹配方法可以直接增强下游遥感应用,例如目标检测。

🔬 方法详解

问题定义:论文旨在解决遥感图像跨模态匹配中,由于几何和辐射差异导致的特征描述困难问题。现有方法主要依赖全连接层提取特征,忽略了图像局部特征和上下文信息,导致跨模态相似性捕捉能力不足。

核心思路:论文的核心思路是利用跨时空融合注意力机制(CSTF)增强特征表示。通过独立检测参考图像和查询图像中的尺度不变关键点,并将其融合到特征匹配过程中,从而提高匹配的准确性和鲁棒性。同时,将相似性匹配问题转化为分类问题,利用SoftMax和FCN进行处理,进一步提升匹配性能。

技术框架:CSTF的整体框架包含以下几个主要阶段:1) 在参考图像和查询图像中独立检测尺度不变关键点;2) 利用检测到的关键点创建对应图,该图包含了多个图像区域的信息;3) 将相似性匹配过程重新定义为分类任务,使用SoftMax和FCN进行处理;4) 通过跨时空融合注意力机制,将关键点信息和上下文信息融合到特征表示中。

关键创新:论文的关键创新在于提出了跨时空融合注意力机制(CSTF),该机制能够有效地融合尺度不变关键点和上下文信息,从而增强特征表示。与现有方法相比,CSTF能够更好地捕捉跨模态相似性,提高匹配的准确性和鲁棒性。此外,将相似性匹配问题转化为分类问题也是一个创新点,能够利用分类算法的优势来提高匹配性能。

关键设计:CSTF的关键设计包括:1) 尺度不变关键点的检测方法,需要选择合适的算法以保证关键点的稳定性和可重复性;2) 对应图的构建方法,需要考虑如何有效地利用多个图像区域的信息;3) SoftMax和FCN的结构设计,需要根据具体任务进行调整;4) 跨时空融合注意力机制的具体实现方式,需要考虑如何有效地融合关键点信息和上下文信息。论文中并未详细说明这些关键设计的具体参数和实现细节,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CSTF模型在HRSC2016和DOTA数据集上取得了显著的性能提升,平均mAP分别达到90.99%和90.86%,超越了现有方法。同时,CSTF模型保持了较高的计算效率,推理速度达到12.5 FPS,表明该方法在实际应用中具有良好的可行性。

🎯 应用场景

该研究成果可应用于多种遥感图像处理任务,如多源遥感数据融合、变化检测、目标识别与定位等。通过提高跨模态图像匹配的准确性,可以提升遥感应用的自动化程度和智能化水平,在城市规划、灾害监测、环境评估等领域具有重要的应用价值和潜力。

📄 摘要(原文)

Effectively describing features for cross-modal remote sensing image matching remains a challenging task due to the significant geometric and radiometric differences between multimodal images. Existing methods primarily extract features at the fully connected layer but often fail to capture cross-modal similarities effectively. We propose a Cross Spatial Temporal Fusion (CSTF) mechanism that enhances feature representation by integrating scale-invariant keypoints detected independently in both reference and query images. Our approach improves feature matching in two ways: First, by creating correspondence maps that leverage information from multiple image regions simultaneously, and second, by reformulating the similarity matching process as a classification task using SoftMax and Fully Convolutional Network (FCN) layers. This dual approach enables CSTF to maintain sensitivity to distinctive local features while incorporating broader contextual information, resulting in robust matching across diverse remote sensing modalities. To demonstrate the practical utility of improved feature matching, we evaluate CSTF on object detection tasks using the HRSC2016 and DOTA benchmark datasets. Our method achieves state-of-theart performance with an average mAP of 90.99% on HRSC2016 and 90.86% on DOTA, outperforming existing models. The CSTF model maintains computational efficiency with an inference speed of 12.5 FPS. These results validate that our approach to crossmodal feature matching directly enhances downstream remote sensing applications such as object detection.