MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

📄 arXiv: 2512.23219v1 📥 PDF

作者: Shiqi Dai, Zizhi Ma, Zhicong Luo, Xuesong Yang, Yibin Huang, Wanyue Zhang, Chi Chen, Zonghao Guo, Wang Xu, Yufei Sun, Maosong Sun

分类: cs.CV

发布日期: 2025-12-29

备注: 25 pages


💡 一句话要点

提出MM-UAVBench,评估多模态大语言模型在低空无人机场景下的感知、认知和规划能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 无人机 低空场景 基准测试 感知 认知 规划 空间推理

📋 核心要点

  1. 现有MLLM基准测试缺乏对低空无人机场景的针对性评估,无法有效衡量模型在此类场景下的通用智能。
  2. MM-UAVBench通过构建包含感知、认知和规划三个维度的综合性基准,系统评估MLLM在低空无人机场景中的能力。
  3. 实验结果表明,现有MLLM在低空场景中表现不佳,存在空间偏差和多视角理解等问题,有待进一步研究。

📝 摘要(中文)

多模态大语言模型(MLLMs)在各个领域都展现出了卓越的通用智能,但其在无人机(UAV)主导的低空应用中的潜力仍未得到充分探索。现有的MLLM基准测试很少涵盖低空场景的独特挑战,而与UAV相关的评估主要集中在定位或导航等特定任务上,缺乏对MLLM通用智能的统一评估。为了弥合这一差距,我们提出了MM-UAVBench,这是一个综合性的基准,系统地评估了MLLM在低空UAV场景中的三个核心能力维度——感知、认知和规划。MM-UAVBench包含19个子任务,拥有超过5.7K个手动标注的问题,所有问题都来自公共数据集收集的真实UAV数据。对16个开源和专有MLLM的大量实验表明,当前的模型难以适应低空场景复杂的视觉和认知需求。我们的分析进一步揭示了空间偏差和多视角理解等关键瓶颈,这些瓶颈阻碍了MLLM在UAV场景中的有效部署。我们希望MM-UAVBench能够促进未来对鲁棒和可靠的MLLM在实际UAV智能方面的研究。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在低空无人机(UAV)场景下的性能评估问题。现有MLLM基准测试缺乏对低空UAV场景的针对性,无法全面评估模型在此类场景下的感知、认知和规划能力。现有的UAV相关评估通常只关注特定任务,如定位或导航,缺乏对MLLM通用智能的统一评估。

核心思路:论文的核心思路是构建一个综合性的基准测试集MM-UAVBench,该基准包含多个子任务,覆盖低空UAV场景下的感知、认知和规划三个核心能力维度。通过在MM-UAVBench上评估MLLM的性能,可以系统地分析模型在低空UAV场景下的优势和不足,从而指导未来的研究方向。

技术框架:MM-UAVBench的整体框架包括以下几个主要步骤:1) 数据收集:从公共数据集中收集真实的UAV数据。2) 子任务设计:设计19个子任务,涵盖感知、认知和规划三个维度。3) 问题标注:为每个子任务手动标注超过5.7K个问题。4) 模型评估:在MM-UAVBench上评估16个开源和专有MLLM的性能。5) 结果分析:分析实验结果,揭示模型在低空UAV场景下的瓶颈。

关键创新:论文的关键创新在于构建了一个专门针对低空UAV场景的综合性MLLM基准测试集MM-UAVBench。与现有基准测试相比,MM-UAVBench更加关注低空UAV场景的独特挑战,例如空间偏差和多视角理解。此外,MM-UAVBench还涵盖了感知、认知和规划三个核心能力维度,可以更全面地评估MLLM的性能。

关键设计:MM-UAVBench的关键设计包括:1) 子任务的选择:子任务的选择基于对低空UAV场景的深入分析,涵盖了常见的UAV应用场景和挑战。2) 问题的标注:问题由人工标注,保证了问题的质量和相关性。3) 评估指标的选择:评估指标的选择能够有效衡量模型在各个子任务上的性能。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

在MM-UAVBench上对16个MLLM的实验表明,现有模型在低空UAV场景中表现不佳,尤其是在空间推理和多视角理解方面。例如,模型在某些子任务上的准确率仅为个位数,远低于人类水平。这些结果揭示了现有MLLM在低空UAV场景下的局限性,为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的无人机系统,例如在城市管理、环境监测、灾害救援等领域。通过提升MLLM在低空UAV场景下的感知、认知和规划能力,可以实现更高效、更安全的无人机应用,并推动相关产业的发展。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) have exhibited remarkable general intelligence across diverse domains, their potential in low-altitude applications dominated by Unmanned Aerial Vehicles (UAVs) remains largely underexplored. Existing MLLM benchmarks rarely cover the unique challenges of low-altitude scenarios, while UAV-related evaluations mainly focus on specific tasks such as localization or navigation, without a unified evaluation of MLLMs'general intelligence. To bridge this gap, we present MM-UAVBench, a comprehensive benchmark that systematically evaluates MLLMs across three core capability dimensions-perception, cognition, and planning-in low-altitude UAV scenarios. MM-UAVBench comprises 19 sub-tasks with over 5.7K manually annotated questions, all derived from real-world UAV data collected from public datasets. Extensive experiments on 16 open-source and proprietary MLLMs reveal that current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios. Our analyses further uncover critical bottlenecks such as spatial bias and multi-view understanding that hinder the effective deployment of MLLMs in UAV scenarios. We hope MM-UAVBench will foster future research on robust and reliable MLLMs for real-world UAV intelligence.