A Mutual-Structure Weighted Sub-Pixel Multimodal Optical Remote Sensing Image Matching Method
作者: Tao Huang, Hongbo Pan, Nanxi Zhou, Siyuan Zou, Shun Zhou
分类: cs.CV
发布日期: 2025-08-14 (更新: 2026-01-04)
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种互结构加权亚像素多模态遥感图像匹配方法,提升匹配精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态遥感图像匹配 亚像素精度 相位一致性 互结构加权 图像融合
📋 核心要点
- 多模态遥感图像匹配易受结构噪声和模态差异影响,导致精度下降。
- PCWLAD方法通过相位一致性互结构加权,增强跨模态结构一致性,实现精确匹配。
- 实验表明,PCWLAD在多个数据集上优于现有方法,平均匹配精度达到0.4像素。
📝 摘要(中文)
多模态光学遥感图像的亚像素匹配是多传感器联合应用的关键步骤。然而,由多模态图像响应变化引起的结构噪声和不一致性通常会限制匹配精度。本文提出了一种相位一致性互结构加权最小绝对偏差(PCWLAD)方法,作为一个由粗到精的框架。在粗匹配阶段,我们保留完整的结构,并使用增强的跨模态相似性准则来减轻PC噪声滤波造成的结构信息损失。在精匹配阶段,引入了一种互结构滤波和基于加权最小绝对偏差的方法,以增强模态间结构一致性,并自适应地精确估计亚像素位移。在三个多模态数据集(Landsat可见光-红外、短程可见光-近红外和无人机光学图像对)上的实验表明,PCWLAD始终优于八种最先进的方法,实现了约0.4像素的平均匹配精度。该软件和数据集可在https://github.com/huangtaocsu/PCWLAD公开获取。
🔬 方法详解
问题定义:多模态光学遥感图像匹配旨在寻找不同传感器获取的同一场景图像之间的对应关系,尤其关注亚像素级别的精度。现有方法容易受到不同模态图像之间的结构噪声和辐射差异的影响,导致匹配精度降低,难以满足高精度应用的需求。现有方法在处理跨模态差异时,容易损失结构信息,或者无法自适应地处理不同区域的噪声。
核心思路:本文的核心思路是利用相位一致性(Phase Congruency, PC)提取图像的结构信息,并设计互结构加权策略,增强不同模态图像之间的结构一致性。通过由粗到精的匹配框架,先进行全局的结构信息对齐,再进行局部的亚像素精度优化,从而提高匹配的鲁棒性和精度。该方法旨在更好地保留和利用图像的结构信息,同时抑制噪声的影响。
技术框架:PCWLAD方法采用由粗到精的匹配框架,主要包含以下两个阶段: 1. 粗匹配阶段:利用相位一致性提取图像的结构信息,并使用增强的跨模态相似性准则进行匹配。该阶段旨在保留完整的结构信息,并减轻噪声的影响。 2. 精匹配阶段:引入互结构滤波和基于加权最小绝对偏差的方法,增强模态间结构一致性,并自适应地精确估计亚像素位移。该阶段旨在提高匹配的精度。
关键创新:该方法的主要创新点在于: 1. 互结构加权:通过互结构滤波,增强不同模态图像之间的结构一致性,提高匹配的鲁棒性。 2. 增强的跨模态相似性准则:在粗匹配阶段,使用增强的相似性准则,减轻结构信息损失。 3. 自适应亚像素位移估计:在精匹配阶段,自适应地估计亚像素位移,提高匹配精度。
关键设计: 1. 相位一致性(PC)提取:使用相位一致性模型提取图像的结构信息,该模型对光照变化和噪声具有一定的鲁棒性。 2. 互结构滤波:设计互结构滤波器,用于增强不同模态图像之间的结构一致性。滤波器的具体形式未知,但其目的是突出共同的结构特征,抑制模态差异带来的噪声。 3. 加权最小绝对偏差(WLAD):使用加权最小绝对偏差作为损失函数,自适应地调整不同像素的权重,从而提高匹配的精度。权重的具体计算方式未知,但可能与局部图像的结构信息有关。
📊 实验亮点
实验结果表明,PCWLAD方法在三个多模态数据集(Landsat可见光-红外、短程可见光-近红外和无人机光学图像对)上均优于八种最先进的方法,平均匹配精度达到约0.4像素。这表明该方法具有良好的鲁棒性和精度,能够有效处理多模态遥感图像匹配问题。
🎯 应用场景
该研究成果可广泛应用于多源遥感数据融合、变化检测、三维重建、目标识别等领域。例如,结合可见光和红外图像可以提高夜间或恶劣天气条件下的目标检测能力;融合不同分辨率的遥感图像可以提高图像的空间分辨率。该方法具有重要的实际应用价值,并有望推动遥感图像处理技术的发展。
📄 摘要(原文)
Sub-pixel matching of multimodal optical images is a critical step in combined application of multiple sensors. However structural noise and inconsistencies arising from variations in multimodal image responses usually limit the accuracy of matching. Phase congruency mutual-structure weighted least absolute deviation (PCWLAD) is developed as a coarse-to-fine framework. In the coarse matching stage, we preserve the complete structure and use an enhanced cross-modal similarity criterion to mitigate structural information loss by PC noise filtering. In the fine matching stage, a mutual-structure filtering and weighted least absolute deviation-based is introduced to enhance inter-modal structural consistency and accurately estimate sub-pixel displacements adaptively. Experiments on three multimodal datasets-Landsat visible-infrared, short-range visible-near-infrared, and UAV optical image pairs demonstrate that PCWLAD consistently outperforms eight state-of-the-art methods, achieving an average matching accuracy of approximately 0.4 pixels. The software and datasets are publicly available at https://github.com/huangtaocsu/PCWLAD.