ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions

作者: Kangcheng Bin, Chen Chen, Ting Hu, Jiahao Qi, Ping Zhong

分类: cs.CV

发布日期: 2025-07-28

🔗 代码/项目: GITHUB

💡 一句话要点

ATR-UMMIM：无人机多模态图像配准基准数据集，应对复杂成像条件

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机 多模态图像配准 基准数据集 红外图像 可见光图像

📋 核心要点

无人机多模态融合是目标检测的关键，但不同模态间的分辨率、视场和传感特性差异大，精确配准是融合前提。
构建了ATR-UMMIM数据集，包含可见光、红外图像对及精确配准的真值，覆盖多种成像条件，支持配准算法的鲁棒性评估。
提供像素级配准真值和目标级标注，支持配准算法评估和下游任务，为无人机多模态感知研究提供基准。

📝 摘要（中文）

本文提出了ATR-UMMIM，首个专门为无人机多模态图像配准设计的基准数据集。该数据集包含7969组可见光、红外和精确配准的可见光图像三元组，覆盖了80米至300米的飞行高度、0°至75°的相机角度，以及全年全天候的时间变化和丰富的气象光照条件等多种场景。为了保证配准质量，设计了半自动标注流程，为每个三元组引入可靠的像素级真值。此外，每个三元组都标注了六个成像条件属性，从而能够评估配准方法在真实部署环境下的鲁棒性。为了进一步支持下游任务，在所有配准图像上提供了目标级标注，涵盖11个目标类别，包含77753个可见光和78409个红外边界框。ATR-UMMIM将为推进真实无人机场景中的多模态配准、融合和感知提供基础基准。

🔬 方法详解

问题定义：无人机多模态图像配准是多模态融合的关键步骤，但现有方法缺乏在复杂成像条件下（如不同高度、角度、光照和天气）的有效评估和比较。缺乏公开可用的、专门针对无人机场景的多模态配准基准数据集，严重限制了相关算法的开发和性能评估。

核心思路：构建一个包含多种复杂成像条件下的无人机多模态图像数据集，并提供高质量的像素级配准真值和目标级标注，从而为多模态配准算法的开发、评估和比较提供一个可靠的平台。通过半自动标注流程，保证配准真值的准确性。

技术框架：该数据集包含以下几个关键组成部分：1) 多模态图像数据：包括可见光和红外图像，覆盖不同的飞行高度、相机角度、时间和天气条件。2) 像素级配准真值：通过半自动标注流程，为每对图像提供精确的像素级配准关系。3) 成像条件属性标注：标注每对图像的成像条件属性，如飞行高度、相机角度、光照条件等。4) 目标级标注：在配准后的图像上标注目标边界框，支持下游目标检测任务。

关键创新：该数据集是首个专门针对无人机多模态图像配准的基准数据集，其创新之处在于：1) 覆盖了多种复杂成像条件，更贴近真实应用场景。2) 提供了高质量的像素级配准真值，保证了评估的准确性。3) 提供了目标级标注，支持下游目标检测任务。

关键设计：半自动标注流程是保证配准真值质量的关键。该流程包括以下步骤：1) 人工粗略配准：人工对图像进行粗略配准，确定大致的对应关系。2) 自动特征匹配：利用SIFT等特征提取算法，自动提取图像中的特征点，并进行匹配。3) 异常值剔除：利用RANSAC等算法，剔除错误的匹配点。4) 像素级精细配准：利用薄板样条(Thin Plate Spline, TPS)等形变模型，对图像进行像素级的精细配准。5) 人工校正：人工对配准结果进行校正，确保配准的准确性。

🖼️ 关键图片

📊 实验亮点

ATR-UMMIM数据集包含7969组多模态图像三元组，覆盖多种复杂成像条件。数据集提供了像素级配准真值和目标级标注，为多模态配准算法的评估和下游任务提供了可靠的基础。该数据集的发布将促进无人机多模态感知领域的研究进展。

🎯 应用场景

该研究成果可广泛应用于无人机遥感、智能交通、安防监控、灾害救援等领域。高质量的多模态图像配准是这些应用的关键技术，而ATR-UMMIM数据集将加速相关算法的研发，提升无人机在复杂环境下的感知能力，为各行业带来实际价值，并推动无人机智能化发展。

📄 摘要（原文）

Multimodal fusion has become a key enabler for UAV-based object detection, as each modality provides complementary cues for robust feature extraction. However, due to significant differences in resolution, field of view, and sensing characteristics across modalities, accurate registration is a prerequisite before fusion. Despite its importance, there is currently no publicly available benchmark specifically designed for multimodal registration in UAV-based aerial scenarios, which severely limits the development and evaluation of advanced registration methods under real-world conditions. To bridge this gap, we present ATR-UMMIM, the first benchmark dataset specifically tailored for multimodal image registration in UAV-based applications. This dataset includes 7,969 triplets of raw visible, infrared, and precisely registered visible images captured covers diverse scenarios including flight altitudes from 80m to 300m, camera angles from 0° to 75°, and all-day, all-year temporal variations under rich weather and illumination conditions. To ensure high registration quality, we design a semi-automated annotation pipeline to introduce reliable pixel-level ground truth to each triplet. In addition, each triplet is annotated with six imaging condition attributes, enabling benchmarking of registration robustness under real-world deployment settings. To further support downstream tasks, we provide object-level annotations on all registered images, covering 11 object categories with 77,753 visible and 78,409 infrared bounding boxes. We believe ATR-UMMIM will serve as a foundational benchmark for advancing multimodal registration, fusion, and perception in real-world UAV scenarios. The datatset can be download from https://github.com/supercpy/ATR-UMMIM

ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理