Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

📄 arXiv: 2603.08208v1 📥 PDF

作者: Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar

分类: cs.CV, cs.AI

发布日期: 2026-03-09


💡 一句话要点

提出对齐感知和可靠性门控的多模态融合方法,提升异构热成像-可见光无人机检测性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机检测 多模态融合 热成像 可见光 图像配准

📋 核心要点

  1. 现有融合方法难以保持多模态数据的空间对应性,且易受不一致标注影响,限制了无人机检测的鲁棒性。
  2. 提出RGIF和RGMAF两种融合策略,分别通过配准和可靠性加权注意力机制,自适应地融合热成像和可见光信息。
  3. 实验结果表明,RGIF在mAP@50上提升了2.13%,RGMAF获得了最高的召回率98.64%,显著提升了无人机检测性能。

📝 摘要(中文)

可靠的无人机检测对于自主空域监控至关重要,但当集成在分辨率、视角和视场上差异很大的传感器数据流时,仍然具有挑战性。传统的融合方法(如小波、拉普拉斯和决策级方法)通常无法保持跨模态的空间对应关系,并且容易受到不一致标注的影响,从而限制了它们在实际环境中的鲁棒性。本研究提出了两种融合策略:注册感知引导图像融合(RGIF)和可靠性门控模态注意力融合(RGMAF),旨在克服这些限制。RGIF采用基于增强相关系数(ECC)的仿射配准,并结合引导滤波来保持热成像显著性,同时增强结构细节。RGMAF集成了仿射和光流配准,以及可靠性加权注意力机制,自适应地平衡热对比度和视觉清晰度。实验在多传感器多视角固定翼(MMFW)-UAV数据集上进行,该数据集包含从红外、广角和变焦传感器收集的147417个带注释的空对空帧。在单模态检测器中,YOLOv10x表现出最稳定的跨域性能,并被选为评估融合图像的检测骨干网络。RGIF将视觉基线提高了2.13% mAP@50(达到97.65%),而RGMAF获得了最高的98.64%召回率。这些发现表明,注册感知和可靠性自适应融合为集成异构模态提供了一个鲁棒的框架,从而显著提高了多模态环境中的无人机检测性能。

🔬 方法详解

问题定义:论文旨在解决异构热成像和可见光传感器在无人机检测中融合的问题。现有方法如小波、拉普拉斯和决策级融合,无法有效处理不同模态间的空间错位和数据质量差异,导致检测精度下降。

核心思路:论文的核心思路是利用配准技术对齐不同模态的数据,并引入可靠性门控机制,根据数据质量自适应地调整各模态的权重,从而实现更鲁棒的多模态融合。这样可以有效利用热成像的显著性和可见光的细节信息。

技术框架:整体框架包含两个主要模块:RGIF和RGMAF。RGIF首先使用ECC算法进行仿射配准,然后使用引导滤波融合图像。RGMAF则同时使用仿射配准和光流配准,并引入一个可靠性加权注意力机制来融合特征。YOLOv10x被用作检测骨干网络,对融合后的图像进行无人机检测。

关键创新:论文的关键创新在于提出了注册感知和可靠性自适应的融合策略。RGIF通过配准和引导滤波,在保持热成像显著性的同时增强了结构细节。RGMAF则通过可靠性加权注意力机制,自适应地平衡了热对比度和视觉清晰度,从而更好地利用了不同模态的信息。

关键设计:RGIF使用ECC算法进行仿射配准,以校正不同模态间的几何变换。引导滤波用于融合配准后的图像,其中热成像作为引导图像,可见光图像作为输入图像。RGMAF使用仿射配准和光流配准来处理更复杂的运动。可靠性加权注意力机制根据每个模态的质量动态调整权重,具体实现细节未知。

📊 实验亮点

实验结果表明,RGIF将YOLOv10x的mAP@50提升了2.13%,达到了97.65%。RGMAF获得了最高的召回率,达到了98.64%。这些结果表明,所提出的融合策略能够有效提高无人机检测的性能,优于传统的单模态检测方法。

🎯 应用场景

该研究成果可应用于自主空域监控、无人机防御、搜救行动等领域。通过融合异构传感器数据,可以提高无人机检测的准确性和鲁棒性,尤其是在复杂环境和恶劣天气条件下。未来可扩展到其他多模态感知任务,例如自动驾驶、机器人导航等。

📄 摘要(原文)

Reliable unmanned aerial vehicle (UAV) detection is critical for autonomous airspace monitoring but remains challenging when integrating sensor streams that differ substantially in resolution, perspective, and field of view. Conventional fusion methods-such as wavelet-, Laplacian-, and decision-level approaches-often fail to preserve spatial correspondence across modalities and suffer from annotation of inconsistencies, limiting their robustness in real-world settings. This study introduces two fusion strategies, Registration-aware Guided Image Fusion (RGIF) and Reliability-Gated Modality-Attention Fusion (RGMAF), designed to overcome these limitations. RGIF employs Enhanced Correlation Coefficient (ECC)-based affine registration combined with guided filtering to maintain thermal saliency while enhancing structural detail. RGMAF integrates affine and optical-flow registration with a reliability-weighted attention mechanism that adaptively balances thermal contrast and visual sharpness. Experiments were conducted on the Multi-Sensor and Multi-View Fixed-Wing (MMFW)-UAV dataset comprising 147,417 annotated air-to-air frames collected from infrared, wide-angle, and zoom sensors. Among single-modality detectors, YOLOv10x demonstrated the most stable cross-domain performance and was selected as the detection backbone for evaluating fused imagery. RGIF improved the visual baseline by 2.13% mAP@50 (achieving 97.65%), while RGMAF attained the highest recall of 98.64%. These findings show that registration-aware and reliability-adaptive fusion provides a robust framework for integrating heterogeneous modalities, substantially enhancing UAV detection performance in multimodal environments.