Pyramidal Adaptive Cross-Gating for Multimodal Detection
作者: Zidong Gu, Shoufu Tian
分类: cs.CV
发布日期: 2025-12-20 (更新: 2026-01-09)
备注: 17 pages, 6 figures, submitted to Image and Vision Computing
💡 一句话要点
PACGNet:针对无人机图像多模态目标检测的金字塔自适应交叉门控网络
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 目标检测 航拍图像 特征金字塔 交叉门控
📋 核心要点
- 现有航拍图像多模态目标检测方法依赖简单融合策略,易受跨模态噪声干扰,破坏特征金字塔结构,影响小目标检测。
- PACGNet通过对称交叉门控(SCG)抑制噪声,金字塔特征感知多模态门控(PFMG)重建特征层级,实现细粒度特征保留。
- 在DroneVehicle和VEDAI数据集上,PACGNet取得了SOTA结果,mAP50分别达到82.2%和82.1%,显著提升了检测精度。
📝 摘要(中文)
本文提出金字塔自适应交叉门控网络(PACGNet),旨在解决航拍图像目标检测中,现有方法在多模态特征交互时采用简单融合策略导致的跨模态噪声和破坏特征金字塔层级结构的问题,从而提升小目标检测性能。PACGNet通过在骨干网络中进行深度融合,设计了对称交叉门控(SCG)模块和金字塔特征感知多模态门控(PFMG)模块。SCG模块采用双向对称的“水平”门控机制,选择性地吸收互补信息,抑制噪声,并保持每个模态的语义完整性。PFMG模块通过渐进式分层门控机制重建特征层级结构,利用来自先前更高分辨率层的详细特征来指导当前较低分辨率层的融合,从而有效地在特征传播过程中保留细粒度细节。在DroneVehicle和VEDAI数据集上的评估表明,PACGNet达到了新的state-of-the-art水平,mAP50得分分别达到82.2%和82.1%。
🔬 方法详解
问题定义:现有基于多模态特征融合的航拍图像目标检测方法,通常采用简单的特征融合策略,例如直接拼接或加权平均。这种简单融合方式容易引入跨模态噪声,并且破坏了特征金字塔的层级结构,导致小目标检测性能下降。因此,如何有效地进行多模态特征融合,抑制噪声,并保持特征金字塔的层级结构,是本文要解决的关键问题。
核心思路:本文的核心思路是设计一种自适应的交叉门控机制,以选择性地融合不同模态的特征,抑制噪声,并重建特征金字塔的层级结构。通过对称交叉门控(SCG)模块,实现模态间的互补信息吸收和噪声抑制。通过金字塔特征感知多模态门控(PFMG)模块,利用高分辨率特征指导低分辨率特征的融合,从而保持细粒度细节,重建特征金字塔。
技术框架:PACGNet的整体架构是在一个多模态特征提取骨干网络的基础上,引入SCG和PFMG模块进行深度特征融合。首先,不同模态的图像通过各自的编码器提取特征。然后,SCG模块在每个特征层级上进行对称的交叉门控,以选择性地融合不同模态的特征。接着,PFMG模块利用高分辨率特征指导低分辨率特征的融合,重建特征金字塔。最后,融合后的特征被送入检测头进行目标检测。
关键创新:本文最重要的技术创新点在于提出了对称交叉门控(SCG)和金字塔特征感知多模态门控(PFMG)模块。SCG模块通过双向对称的门控机制,实现了模态间的互补信息吸收和噪声抑制,避免了单向门控可能导致的信息丢失。PFMG模块通过渐进式分层门控机制,利用高分辨率特征指导低分辨率特征的融合,有效地保持了细粒度细节,重建了特征金字塔。与现有方法相比,PACGNet能够更有效地进行多模态特征融合,提高小目标检测性能。
关键设计:SCG模块采用sigmoid函数生成门控权重,控制不同模态特征的融合比例。PFMG模块使用卷积层提取高分辨率特征的上下文信息,并将其作为门控权重,指导低分辨率特征的融合。损失函数采用标准的检测损失函数,例如Faster R-CNN中的分类损失和回归损失。具体的网络结构参数(如卷积核大小、通道数等)根据数据集和实验结果进行调整。
📊 实验亮点
PACGNet在DroneVehicle和VEDAI数据集上取得了显著的性能提升。在DroneVehicle数据集上,mAP50得分达到82.2%,超过了现有最佳方法。在VEDAI数据集上,mAP50得分达到82.1%,同样取得了SOTA结果。实验结果表明,PACGNet能够有效地进行多模态特征融合,提高小目标检测精度,具有较强的竞争力。
🎯 应用场景
该研究成果可广泛应用于无人机侦察、智能交通、智慧城市等领域。通过融合可见光图像和红外图像等多模态数据,可以提高复杂环境下的目标检测精度,例如夜间或恶劣天气条件下的车辆检测。该方法还有潜力应用于遥感图像分析、自动驾驶等领域,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Object detection in aerial imagery is a critical task in applications such as UAV reconnaissance. Although existing methods have extensively explored feature interaction between different modalities, they commonly rely on simple fusion strategies for feature aggregation. This introduces two critical flaws: it is prone to cross-modal noise and disrupts the hierarchical structure of the feature pyramid, thereby impairing the fine-grained detection of small objects. To address this challenge, we propose the Pyramidal Adaptive Cross-Gating Network (PACGNet), an architecture designed to perform deep fusion within the backbone. To this end, we design two core components: the Symmetrical Cross-Gating (SCG) module and the Pyramidal Feature-aware Multimodal Gating (PFMG) module. The SCG module employs a bidirectional, symmetrical "horizontal" gating mechanism to selectively absorb complementary information, suppress noise, and preserve the semantic integrity of each modality. The PFMG module reconstructs the feature hierarchy via a progressive hierarchical gating mechanism. This leverages the detailed features from a preceding, higher-resolution level to guide the fusion at the current, lower-resolution level, effectively preserving fine-grained details as features propagate. Through evaluations conducted on the DroneVehicle and VEDAI datasets, our PACGNet sets a new state-of-the-art benchmark, with mAP50 scores reaching 82.2% and 82.1% respectively.