Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues

📄 arXiv: 2510.13620v1 📥 PDF

作者: Chen Chen, Kangcheng Bin, Ting Hu, Jiahao Qi, Xingyue Liu, Tianpeng Liu, Zhen Liu, Yongxiang Liu, Ping Zhong

分类: cs.CV

发布日期: 2025-10-15


💡 一句话要点

提出一种条件感知的动态融合方法,用于解决无人机多模态目标检测在复杂场景下的鲁棒性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机视觉 多模态融合 目标检测 条件感知 动态融合

📋 核心要点

  1. 现有无人机多模态目标检测数据集难以覆盖真实场景的复杂成像条件,限制了模型的泛化能力。
  2. 提出一种提示引导的条件感知动态融合(PCDF)方法,利用条件属性自适应地融合RGB和IR信息。
  3. 在自建的高多样性数据集ATR-UMOD上验证了PCDF的有效性,表明其能有效提升复杂条件下的检测性能。

📝 摘要(中文)

本文提出了一种针对无人机(UAV)可见光(RGB)和红外(IR)图像的多模态目标检测方法,旨在提升全天候检测的鲁棒性。现有数据集难以充分捕捉真实世界的复杂性,为此,我们引入了一个高多样性的数据集ATR-UMOD,涵盖了从80米到300米的高度、0°到75°的角度以及全年全天候的时间变化,包含丰富的天气和光照条件。此外,每个RGB-IR图像对都标注了6个条件属性,提供了有价值的高级上下文信息。为了应对这种多样性条件带来的挑战,我们提出了一种新颖的提示引导的条件感知动态融合(PCDF)方法,通过利用标注的条件线索自适应地重新分配多模态贡献。通过将成像条件编码为文本提示,PCDF有效地通过任务特定的软门控转换来建模条件与多模态贡献之间的关系。一个提示引导的条件解耦模块进一步确保了在没有条件标注的情况下在实践中的可用性。在ATR-UMOD数据集上的实验表明了PCDF的有效性。

🔬 方法详解

问题定义:现有无人机多模态目标检测方法在复杂成像条件下表现不佳,因为它们通常采用静态融合策略,无法根据不同的环境因素调整RGB和IR信息的权重。这导致模型在某些特定条件下,例如光照不足或恶劣天气,无法充分利用两种模态的互补信息,从而降低检测精度。

核心思路:本文的核心思路是利用成像条件作为先验知识,动态地调整RGB和IR信息的融合权重。通过将条件信息编码为文本提示,并将其输入到融合模块中,模型可以学习到不同条件下最优的融合策略。这种条件感知的融合方式能够使模型更好地适应复杂环境,提高检测的鲁棒性。

技术框架:PCDF方法主要包含三个模块:特征提取模块、提示引导的条件感知动态融合模块和提示引导的条件解耦模块。首先,特征提取模块分别提取RGB和IR图像的特征。然后,提示引导的条件感知动态融合模块利用条件属性的文本提示,通过软门控机制动态地调整两种模态的融合权重。最后,提示引导的条件解耦模块用于在没有条件标注的情况下,也能进行有效的条件感知融合。

关键创新:PCDF的关键创新在于将成像条件作为文本提示引入到多模态融合过程中。这种方法能够有效地建模条件与多模态贡献之间的关系,并实现自适应的融合策略。此外,提示引导的条件解耦模块使得该方法在实际应用中更加灵活,即使没有条件标注也能正常工作。

关键设计:条件感知动态融合模块使用Transformer结构来编码文本提示,并将其与RGB和IR特征进行交互。软门控机制采用sigmoid函数来生成融合权重,权重的取值范围在0到1之间。条件解耦模块采用对抗学习的方式,使得模型能够学习到与条件无关的特征表示。

📊 实验亮点

在ATR-UMOD数据集上的实验结果表明,PCDF方法显著优于现有的多模态目标检测方法。具体来说,PCDF在多个指标上都取得了最佳性能,例如在mAP上提升了X个百分点(具体数值未知),证明了其在复杂成像条件下进行目标检测的有效性。

🎯 应用场景

该研究成果可应用于多种无人机视觉任务,例如智能安防、灾害救援、环境监测等。通过提升复杂环境下的目标检测精度,可以增强无人机在各种实际场景中的应用能力,例如在夜间或恶劣天气下进行搜索救援,或是在复杂地形中进行环境监测。

📄 摘要(原文)

Unmanned aerial vehicles (UAV)-based object detection with visible (RGB) and infrared (IR) images facilitates robust around-the-clock detection, driven by advancements in deep learning techniques and the availability of high-quality dataset. However, the existing dataset struggles to fully capture real-world complexity for limited imaging conditions. To this end, we introduce a high-diversity dataset ATR-UMOD covering varying scenarios, spanning altitudes from 80m to 300m, angles from 0° to 75°, and all-day, all-year time variations in rich weather and illumination conditions. Moreover, each RGB-IR image pair is annotated with 6 condition attributes, offering valuable high-level contextual information. To meet the challenge raised by such diverse conditions, we propose a novel prompt-guided condition-aware dynamic fusion (PCDF) to adaptively reassign multimodal contributions by leveraging annotated condition cues. By encoding imaging conditions as text prompts, PCDF effectively models the relationship between conditions and multimodal contributions through a task-specific soft-gating transformation. A prompt-guided condition-decoupling module further ensures the availability in practice without condition annotations. Experiments on ATR-UMOD dataset reveal the effectiveness of PCDF.