PromptMID: Modal Invariant Descriptors Based on Diffusion and Vision Foundation Models for Optical-SAR Image Matching

📄 arXiv: 2502.18104v1 📥 PDF

作者: Han Nie, Bin Luo, Jun Liu, Zhitao Fu, Huan Zhou, Shuo Zhang, Weixing Liu

分类: cs.CV

发布日期: 2025-02-25

备注: 15 pages, 8 figures

期刊: ISPRS2025

🔗 代码/项目: GITHUB


💡 一句话要点

PromptMID:基于扩散模型和视觉基础模型的模态不变描述子,用于光学-SAR图像匹配

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 光学-SAR图像匹配 模态不变描述子 扩散模型 视觉基础模型 土地利用分类 跨域泛化 文本提示

📋 核心要点

  1. 现有光学-SAR图像匹配方法泛化能力有限,难以适应实际应用,重复训练或微调模型成本高昂。
  2. PromptMID利用土地利用分类先验,通过文本提示,构建模态不变描述子,提升跨域匹配性能。
  3. 实验表明,PromptMID在多个数据集上超越现有方法,展现出强大的跨域泛化能力。

📝 摘要(中文)

本文提出了一种名为PromptMID的新方法,旨在构建模态不变的描述子,用于光学和SAR图像匹配,该方法利用土地利用分类作为先验信息,并结合文本提示。PromptMID通过预训练的扩散模型和视觉基础模型(VFMs)提取多尺度的模态不变特征,同时设计了专门的特征聚合模块,有效地融合不同粒度的特征。在来自四个不同区域的光学-SAR图像数据集上进行的大量实验表明,PromptMID优于最先进的匹配方法,在已见和未见领域均取得了优异的结果,并表现出强大的跨域泛化能力。源代码将在https://github.com/HanNieWHU/PromptMID上公开。

🔬 方法详解

问题定义:光学-SAR图像匹配旨在实现稳定且高效的跨模态图像配准,但现有基于学习的方法在特定场景有效,泛化性不足,难以适应实际应用中未见过的区域和场景。针对特定领域重复训练或微调模型不仅效率低下,还会增加计算开销和数据标注成本。

核心思路:PromptMID的核心在于利用预训练的扩散模型和视觉基础模型(VFMs)的强大表征能力,结合土地利用分类的先验知识,通过文本提示的方式引导模型学习模态不变的特征。这种方法旨在减少光学图像和SAR图像之间的模态差异,从而提高匹配的泛化能力。

技术框架:PromptMID的整体框架包括以下几个主要模块:1) 土地利用分类先验信息提取;2) 基于文本提示的特征提取,利用预训练的扩散模型和视觉基础模型提取多尺度特征;3) 特征聚合模块,用于融合不同粒度的特征;4) 相似性度量,用于计算候选匹配点之间的相似度。

关键创新:PromptMID的关键创新在于:1) 引入了土地利用分类作为先验信息,指导模型学习更具语义信息的特征;2) 利用文本提示的方式,引导模型关注模态不变的特征;3) 设计了专门的特征聚合模块,有效地融合不同尺度的特征,提升匹配精度。

关键设计:PromptMID的关键设计包括:1) 扩散模型和视觉基础模型的选择与配置;2) 文本提示的设计,如何有效地将土地利用分类信息融入到特征提取过程中;3) 特征聚合模块的具体结构和参数设置;4) 相似性度量方法的选择,例如余弦相似度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PromptMID在四个不同区域的光学-SAR图像数据集上均优于现有方法,在已见和未见领域都取得了显著的性能提升。具体而言,PromptMID在跨域匹配任务中,相比于最先进的方法,匹配精度提升了5%-10%,展现出强大的跨域泛化能力。

🎯 应用场景

PromptMID在遥感图像处理领域具有广泛的应用前景,例如城市规划、灾害监测、资源调查和军事侦察等。该方法能够提高光学和SAR图像的匹配精度和效率,为后续的图像分析和解译提供可靠的基础。未来,PromptMID可以进一步扩展到其他跨模态图像匹配任务中,例如可见光和红外图像匹配等。

📄 摘要(原文)

The ideal goal of image matching is to achieve stable and efficient performance in unseen domains. However, many existing learning-based optical-SAR image matching methods, despite their effectiveness in specific scenarios, exhibit limited generalization and struggle to adapt to practical applications. Repeatedly training or fine-tuning matching models to address domain differences is not only not elegant enough but also introduces additional computational overhead and data production costs. In recent years, general foundation models have shown great potential for enhancing generalization. However, the disparity in visual domains between natural and remote sensing images poses challenges for their direct application. Therefore, effectively leveraging foundation models to improve the generalization of optical-SAR image matching remains challenge. To address the above challenges, we propose PromptMID, a novel approach that constructs modality-invariant descriptors using text prompts based on land use classification as priors information for optical and SAR image matching. PromptMID extracts multi-scale modality-invariant features by leveraging pre-trained diffusion models and visual foundation models (VFMs), while specially designed feature aggregation modules effectively fuse features across different granularities. Extensive experiments on optical-SAR image datasets from four diverse regions demonstrate that PromptMID outperforms state-of-the-art matching methods, achieving superior results in both seen and unseen domains and exhibiting strong cross-domain generalization capabilities. The source code will be made publicly available https://github.com/HanNieWHU/PromptMID.