SC3EF: A Joint Self-Correlation and Cross-Correspondence Estimation Framework for Visible and Thermal Image Registration

📄 arXiv: 2504.12869v1 📥 PDF

作者: Xi Tong, Xing Luo, Jiangxin Yang, Yanpeng Cao

分类: cs.CV

发布日期: 2025-04-17

期刊: IEEE Transactions on Intelligent Transportation Systems, Early Access, 10.1109/TITS.2025.3542159

DOI: 10.1109/TITS.2025.3542159


💡 一句话要点

提出SC3EF框架,解决可见光与热成像配准中的跨模态差异问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 可见光热成像配准 跨模态配准 自相关 互对应 卷积Transformer 智能交通 图像处理

📋 核心要点

  1. 可见光与热成像配准在智能交通系统中至关重要,但模态差异导致配准极具挑战。
  2. SC3EF框架结合局部特征和全局上下文,通过卷积-Transformer网络提取特征并估计对应关系。
  3. 实验结果表明,SC3EF在RGB-T数据集上超越SOTA方法,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种新颖的联合自相关和互对应估计框架(SC3EF),用于可见光与热成像(RGB-T)配准。该框架利用局部代表性特征和全局上下文线索,有效地生成RGB-T图像之间的对应关系。为此,我们设计了一个基于卷积-Transformer的流程,提取局部代表性特征并编码模态内全局相关性,用于未对齐的可见光和热图像之间的模态间对应关系估计。在融合局部和全局对应关系估计结果后,我们进一步采用分层光流估计解码器来逐步细化估计的密集对应图。大量实验表明,我们提出的方法是有效的,在代表性的RGB-T数据集上优于当前最先进的方法。此外,它还显示出在具有挑战性的场景中的竞争性泛化能力,包括大视差、严重遮挡、恶劣天气和其他跨模态数据集(例如,RGB-N和RGB-D)。

🔬 方法详解

问题定义:可见光与热成像(RGB-T)配准旨在建立两类图像像素间的精确对应关系。由于可见光和热成像在成像原理上存在显著差异,导致图像外观差异大,传统方法难以有效提取鲁棒的特征并建立准确的对应关系,尤其是在存在大视差、遮挡和恶劣天气等复杂场景下。

核心思路:SC3EF的核心思路是同时利用局部代表性特征和全局上下文信息来增强跨模态对应关系估计的准确性和鲁棒性。通过卷积和Transformer的结合,既能提取图像的局部细节特征,又能捕捉图像的全局结构信息,从而更好地应对模态差异带来的挑战。

技术框架:SC3EF框架主要包含三个阶段:1) 特征提取阶段,使用卷积-Transformer网络提取可见光和热成像的局部代表性特征,并编码模态内的全局相关性;2) 对应关系估计阶段,融合局部特征和全局上下文信息,估计跨模态图像之间的对应关系;3) 对应关系优化阶段,采用分层光流估计解码器逐步细化估计的密集对应图。

关键创新:SC3EF的关键创新在于联合利用自相关和互对应估计。自相关用于捕捉模态内的全局上下文信息,互对应用于建立跨模态的像素级对应关系。通过将两者结合,可以有效地克服模态差异带来的挑战,提高配准的准确性和鲁棒性。此外,使用卷积-Transformer结构也使得网络能够同时关注局部细节和全局结构。

关键设计:在特征提取阶段,使用了卷积层提取局部特征,Transformer层捕捉全局相关性。在对应关系估计阶段,设计了特定的损失函数来约束对应关系的准确性。分层光流估计解码器采用由粗到精的策略,逐步细化对应关系,提高配准精度。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SC3EF在代表性的RGB-T数据集上显著优于当前最先进的方法。具体性能数据和提升幅度未在摘要中给出,属于未知信息。此外,该方法在具有挑战性的场景(如大视差、严重遮挡和恶劣天气)以及其他跨模态数据集上表现出良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于智能交通领域,例如高级驾驶辅助系统(ADAS)、交通监控和夜视系统。精确的RGB-T图像配准能够提升系统在复杂环境下的感知能力,提高驾驶安全性,并为交通管理提供更可靠的数据支持。此外,该方法还可推广到其他跨模态图像配准任务,如RGB-N和RGB-D图像配准。

📄 摘要(原文)

Multispectral imaging plays a critical role in a range of intelligent transportation applications, including advanced driver assistance systems (ADAS), traffic monitoring, and night vision. However, accurate visible and thermal (RGB-T) image registration poses a significant challenge due to the considerable modality differences. In this paper, we present a novel joint Self-Correlation and Cross-Correspondence Estimation Framework (SC3EF), leveraging both local representative features and global contextual cues to effectively generate RGB-T correspondences. For this purpose, we design a convolution-transformer-based pipeline to extract local representative features and encode global correlations of intra-modality for inter-modality correspondence estimation between unaligned visible and thermal images. After merging the local and global correspondence estimation results, we further employ a hierarchical optical flow estimation decoder to progressively refine the estimated dense correspondence maps. Extensive experiments demonstrate the effectiveness of our proposed method, outperforming the current state-of-the-art (SOTA) methods on representative RGB-T datasets. Furthermore, it also shows competitive generalization capabilities across challenging scenarios, including large parallax, severe occlusions, adverse weather, and other cross-modal datasets (e.g., RGB-N and RGB-D).