UAVReason: A Unified, Large-Scale Benchmark for Multimodal Aerial Scene Reasoning and Generation
作者: Jintao Sun, Hu Zhang, Donglin Di, Gangyi Ding, Zhedong Zheng
分类: cs.CV
发布日期: 2026-04-07
备注: 20 pages, 12 figures, 7 tables
💡 一句话要点
提出UAVReason:一个用于多模态航拍场景理解与生成的大规模统一基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机 多模态学习 视觉问答 图像生成 图像分割 多任务学习 基准数据集 场景理解
📋 核心要点
- 现有的视觉-语言模型在无人机场景下表现不佳,主要原因是领域差异大,语义对齐困难。
- UAVReason通过构建大规模多模态基准,并采用多任务学习,提升模型在无人机场景下的性能。
- 实验结果表明,UAVReason能够有效评估模型在空间推理、时间推理和跨模态生成方面的能力。
📝 摘要(中文)
视觉-语言模型(VLMs)在地面视觉理解方面表现出色,但在高空无人机(UAV)场景中性能下降。这主要是由于显著的领域差异,包括微小且密集的物体、重复的纹理和模糊的俯视方向,严重阻碍了语义对齐,并阻碍了空间推理和可控生成。为了弥合这一差距,我们引入了UAVReason,这是首个专用于俯视无人机场景的大规模多模态统一基准,源自高保真无人机模拟平台。与现有侧重于目标检测或分割等单一任务的无人机基准不同,UAVReason独特地整合了超过27.3万个视觉问答(VQA)对,包括2.36万个带有详细描述的单帧、6.82万个双帧时序序列和18.88万个跨模态生成样本。该基准测试涵盖空间和时间轴上的22种不同的推理类型,同时评估RGB、深度和分割模态的高保真生成。我们还通过多任务学习建立了一个强大的统一基线模型。大量实验验证了我们统一方法在各种指标上的有效性,例如VQA的EM/F1、分割的mIoU和生成的CLIP Score。结果表明通用视觉-语言模型的局限性,并表明统一的多任务学习显著提高了无人机原生性能。所有数据、代码和评估工具将公开发布,以推进无人机多模态研究。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型在无人机(UAV)俯视图像理解和生成方面的不足。现有方法在处理无人机图像时,由于视角、尺度和场景复杂度的差异,性能显著下降。现有的无人机数据集通常只关注单一任务,缺乏对多模态推理和生成能力的综合评估。
核心思路:论文的核心思路是构建一个大规模、多模态的无人机数据集UAVReason,并采用多任务学习的方法,训练一个统一的模型,使其能够同时处理视觉问答、图像分割和图像生成等多种任务。通过多任务学习,模型可以共享底层特征,从而提高在各个任务上的性能。
技术框架:UAVReason数据集包含视觉问答(VQA)对、时序图像序列和跨模态生成样本。论文提出的统一模型采用多任务学习框架,包含共享的视觉编码器和针对不同任务的解码器。视觉编码器负责提取图像的特征表示,解码器则根据任务类型,将特征表示转换为相应的输出,例如答案、分割图或生成的图像。
关键创新:论文的关键创新在于构建了大规模、多模态的UAVReason数据集,并提出了一个统一的多任务学习框架。该数据集涵盖了多种推理类型和模态,可以全面评估模型在无人机场景下的理解和生成能力。多任务学习框架可以有效利用不同任务之间的相关性,提高模型的泛化能力。
关键设计:在数据集构建方面,论文采用了高保真无人机模拟平台,生成了大量的合成数据,并进行了详细的标注。在模型设计方面,论文采用了Transformer作为视觉编码器,并针对不同任务设计了相应的解码器。损失函数方面,论文采用了交叉熵损失函数和CLIP Score等指标,用于评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UAVReason数据集能够有效评估现有视觉-语言模型在无人机场景下的性能。通过多任务学习,论文提出的统一模型在视觉问答、图像分割和图像生成等任务上均取得了显著的提升。例如,在VQA任务上,模型的EM/F1指标得到了显著提高,证明了多任务学习的有效性。
🎯 应用场景
该研究成果可应用于智慧城市、农业监测、灾害救援等领域。通过提升无人机对复杂场景的理解能力,可以实现更智能化的目标检测、环境监测和路径规划,从而提高相关任务的效率和准确性。未来,该研究有望推动无人机在更多领域的应用。
📄 摘要(原文)
Vision-Language models (VLMs) have demonstrated remarkable capability in ground-view visual understanding but often fracture when deployed on high-altitude Unmanned Aerial Vehicles (UAVs). The failure largely stems from a pronounced domain shift, characterized by tiny and densely packed objects, repetitive textures, and ambiguous top-down orientations. These factors severely disrupt semantic grounding and hinder both spatial reasoning and controllable generation. To bridge this critical gap, we introduce UAVReason, the first unified large-scale multi-modal benchmark dedicated to nadir-view UAV scenarios, derived from a high-fidelity UAV simulation platform. In contrast to existing UAV benchmarks, which are largely siloed and focus on single tasks like object detection or segmentation, UAVReason uniquely consolidates over 273K Visual Question Answering (VQA) pairs, including 23.6K single frames with detailed captions, 68.2K 2-frame temporal sequences, and 188.8K cross-modal generation samples. The benchmark probes 22 diverse reasoning types across spatial and temporal axes while simultaneously evaluating high-fidelity generation across RGB, depth, and segmentation modalities. We further establish a strong, unified baseline model via multi-task learning. Extensive experiments validate the efficacy of our unified approach across diverse metrics, such as EM/F1 for VQA, mIoU for segmentation, and CLIP Score for generation. These results indicate limitations of general-domain vision-language models and show that unified multi-task learning substantially improves UAV-native performance. All data, code, and evaluation tools will be publicly released to advance UAV multimodal research.