MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

作者: Shiqi Dai, Zizhi Ma, Zhicong Luo, Xuesong Yang, Yibin Huang, Wanyue Zhang, Chi Chen, Zonghao Guo, Wang Xu, Yufei Sun, Maosong Sun

分类: cs.CV

发布日期: 2025-12-29

备注: 25 pages

💡 一句话要点

提出MM-UAVBench，评估多模态大语言模型在低空无人机场景下的感知、认知和规划能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 无人机 低空场景 基准测试 感知 认知 规划 空间推理

📋 核心要点

现有MLLM基准测试缺乏对低空无人机场景的针对性评估，无法有效衡量模型在此类场景下的通用智能。
MM-UAVBench通过构建包含感知、认知和规划三个维度的综合性基准，系统评估MLLM在低空无人机场景中的能力。
实验结果表明，现有MLLM在低空场景中表现不佳，存在空间偏差和多视角理解等问题，有待进一步研究。

📝 摘要（中文）

多模态大语言模型(MLLMs)在各个领域都展现出了卓越的通用智能，但其在无人机(UAV)主导的低空应用中的潜力仍未得到充分探索。现有的MLLM基准测试很少涵盖低空场景的独特挑战，而与UAV相关的评估主要集中在定位或导航等特定任务上，缺乏对MLLM通用智能的统一评估。为了弥合这一差距，我们提出了MM-UAVBench，这是一个综合性的基准，系统地评估了MLLM在低空UAV场景中的三个核心能力维度——感知、认知和规划。MM-UAVBench包含19个子任务，拥有超过5.7K个手动标注的问题，所有问题都来自公共数据集收集的真实UAV数据。对16个开源和专有MLLM的大量实验表明，当前的模型难以适应低空场景复杂的视觉和认知需求。我们的分析进一步揭示了空间偏差和多视角理解等关键瓶颈，这些瓶颈阻碍了MLLM在UAV场景中的有效部署。我们希望MM-UAVBench能够促进未来对鲁棒和可靠的MLLM在实际UAV智能方面的研究。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型(MLLMs)在低空无人机(UAV)场景下的性能评估问题。现有MLLM基准测试缺乏对低空UAV场景的针对性，无法全面评估模型在此类场景下的感知、认知和规划能力。现有的UAV相关评估通常只关注特定任务，如定位或导航，缺乏对MLLM通用智能的统一评估。

核心思路：论文的核心思路是构建一个综合性的基准测试集MM-UAVBench，该基准包含多个子任务，覆盖低空UAV场景下的感知、认知和规划三个核心能力维度。通过在MM-UAVBench上评估MLLM的性能，可以系统地分析模型在低空UAV场景下的优势和不足，从而指导未来的研究方向。

技术框架：MM-UAVBench的整体框架包括以下几个主要步骤：1) 数据收集：从公共数据集中收集真实的UAV数据。2) 子任务设计：设计19个子任务，涵盖感知、认知和规划三个维度。3) 问题标注：为每个子任务手动标注超过5.7K个问题。4) 模型评估：在MM-UAVBench上评估16个开源和专有MLLM的性能。5) 结果分析：分析实验结果，揭示模型在低空UAV场景下的瓶颈。

关键创新：论文的关键创新在于构建了一个专门针对低空UAV场景的综合性MLLM基准测试集MM-UAVBench。与现有基准测试相比，MM-UAVBench更加关注低空UAV场景的独特挑战，例如空间偏差和多视角理解。此外，MM-UAVBench还涵盖了感知、认知和规划三个核心能力维度，可以更全面地评估MLLM的性能。

关键设计：MM-UAVBench的关键设计包括：1) 子任务的选择：子任务的选择基于对低空UAV场景的深入分析，涵盖了常见的UAV应用场景和挑战。2) 问题的标注：问题由人工标注，保证了问题的质量和相关性。3) 评估指标的选择：评估指标的选择能够有效衡量模型在各个子任务上的性能。

🖼️ 关键图片

📊 实验亮点

在MM-UAVBench上对16个MLLM的实验表明，现有模型在低空UAV场景中表现不佳，尤其是在空间推理和多视角理解方面。例如，模型在某些子任务上的准确率仅为个位数，远低于人类水平。这些结果揭示了现有MLLM在低空UAV场景下的局限性，为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的无人机系统，例如在城市管理、环境监测、灾害救援等领域。通过提升MLLM在低空UAV场景下的感知、认知和规划能力，可以实现更高效、更安全的无人机应用，并推动相关产业的发展。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) have exhibited remarkable general intelligence across diverse domains, their potential in low-altitude applications dominated by Unmanned Aerial Vehicles (UAVs) remains largely underexplored. Existing MLLM benchmarks rarely cover the unique challenges of low-altitude scenarios, while UAV-related evaluations mainly focus on specific tasks such as localization or navigation, without a unified evaluation of MLLMs'general intelligence. To bridge this gap, we present MM-UAVBench, a comprehensive benchmark that systematically evaluates MLLMs across three core capability dimensions-perception, cognition, and planning-in low-altitude UAV scenarios. MM-UAVBench comprises 19 sub-tasks with over 5.7K manually annotated questions, all derived from real-world UAV data collected from public datasets. Extensive experiments on 16 open-source and proprietary MLLMs reveal that current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios. Our analyses further uncover critical bottlenecks such as spatial bias and multi-view understanding that hinder the effective deployment of MLLMs in UAV scenarios. We hope MM-UAVBench will foster future research on robust and reliable MLLMs for real-world UAV intelligence.

MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理