AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning
作者: Jirong Zha, Yuxuan Fan, Tianyu Zhang, Geng Chen, Yingfeng Chen, Chen Gao, Xinlei Chen
分类: cs.CV, cs.AI
发布日期: 2025-11-14 (更新: 2025-11-22)
💡 一句话要点
AirCopBench:用于多无人机协同具身感知与推理的基准测试
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多无人机协同 具身感知 多模态大语言模型 基准测试 协同推理
📋 核心要点
- 现有基准缺乏对多智能体协同感知,尤其是在真实退化感知条件下,对多模态大语言模型(MLLM)的有效评估。
- AirCopBench通过构建包含模拟和真实世界数据的综合基准,评估MLLM在具身空中协同感知中的性能。
- 实验结果表明,MLLM在协同感知任务中存在显著性能差距,且微调实验验证了模拟到真实迁移的可行性。
📝 摘要(中文)
多模态大型语言模型(MLLM)在单智能体视觉任务中展现了潜力,但评估多智能体协同感知的基准仍然稀缺。这种差距至关重要,因为与单传感器设置相比,多无人机系统提供了增强的覆盖范围、鲁棒性和协作能力。现有的多图像基准主要针对使用高质量单智能体图像的基本感知任务,因此无法在更复杂的、以自我为中心的协作场景中评估MLLM,尤其是在真实世界的退化感知条件下。为了应对这些挑战,我们推出了AirCopBench,这是第一个综合基准,旨在评估MLLM在具有挑战性的感知条件下进行具身空中协同感知。AirCopBench包含来自模拟器和真实世界数据的14.6k+个问题,涵盖四个关键任务维度:场景理解、对象理解、感知评估和协同决策,跨越14个任务类型。我们使用来自具有挑战性的退化感知场景的数据构建基准,并标注了协同事件,通过基于模型、规则和人工的方法在严格的质量控制下生成大规模问题。对40个MLLM的评估表明,在协同感知任务中存在显著的性能差距,最佳模型平均落后于人类24.38%,并且在不同任务中表现出不一致的结果。微调实验进一步证实了空中协同感知和推理中从模拟到真实的迁移的可行性。
🔬 方法详解
问题定义:论文旨在解决多无人机协同具身感知与推理的评估问题。现有方法主要集中在单智能体或高质量图像的基本感知任务上,缺乏在复杂、以自我为中心的协作场景以及真实世界退化感知条件下的评估能力。这使得我们难以了解MLLM在实际多无人机协同应用中的性能瓶颈。
核心思路:论文的核心思路是构建一个综合性的基准测试集AirCopBench,该基准包含来自模拟器和真实世界的数据,涵盖多种任务类型和挑战性的感知条件。通过在该基准上评估MLLM的性能,可以更全面地了解其在多无人机协同感知和推理方面的能力。
技术框架:AirCopBench的构建流程主要包括以下几个阶段:1) 数据采集:从模拟器和真实世界环境中采集多无人机协同感知数据,包括图像、深度信息等。2) 场景标注:对采集到的数据进行标注,包括场景理解、对象理解、协同事件等。3) 问题生成:基于标注数据,通过模型、规则和人工相结合的方法生成大规模的问题,涵盖场景理解、对象理解、感知评估和协同决策四个关键任务维度。4) 质量控制:对生成的问题进行严格的质量控制,确保问题的准确性和合理性。
关键创新:AirCopBench的主要创新在于它是第一个专门针对多无人机协同具身感知与推理的基准测试集。它不仅包含了来自真实世界的数据,还涵盖了多种任务类型和挑战性的感知条件,能够更全面地评估MLLM在实际应用中的性能。此外,AirCopBench还采用了多种问题生成方法和严格的质量控制流程,确保了基准的可靠性和有效性。
关键设计:AirCopBench包含14.6k+个问题,涵盖14个任务类型,分布在四个关键任务维度:场景理解、对象理解、感知评估和协同决策。问题生成方法包括基于模型的生成、基于规则的生成和人工生成。质量控制流程包括人工审核和模型验证。论文还进行了微调实验,探索了从模拟到真实的迁移学习方法。
🖼️ 关键图片
📊 实验亮点
在AirCopBench基准测试中,对40个MLLM进行了评估,结果表明最佳模型平均落后于人类24.38%,并且在不同任务中表现出不一致的结果,揭示了MLLM在协同感知任务中存在显著的性能差距。此外,微调实验证实了空中协同感知和推理中从模拟到真实的迁移的可行性,为实际应用提供了有价值的参考。
🎯 应用场景
AirCopBench的研究成果可应用于多种领域,例如:灾害救援、环境监测、智能交通等。通过多无人机协同感知和推理,可以实现更高效、更可靠的任务执行。例如,在灾害救援中,多无人机可以协同搜索幸存者,并提供实时信息支持。在环境监测中,多无人机可以协同监测空气质量、水质等指标,并及时发现异常情况。在智能交通中,多无人机可以协同监控交通流量,并提供智能导航服务。该研究的未来影响在于推动多智能体协同感知和推理技术的发展,促进其在更多领域的应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown promise in single-agent vision tasks, yet benchmarks for evaluating multi-agent collaborative perception remain scarce. This gap is critical, as multi-drone systems provide enhanced coverage, robustness, and collaboration compared to single-sensor setups. Existing multi-image benchmarks mainly target basic perception tasks using high-quality single-agent images, thus failing to evaluate MLLMs in more complex, egocentric collaborative scenarios, especially under real-world degraded perception conditions.To address these challenges, we introduce AirCopBench, the first comprehensive benchmark designed to evaluate MLLMs in embodied aerial collaborative perception under challenging perceptual conditions. AirCopBench includes 14.6k+ questions derived from both simulator and real-world data, spanning four key task dimensions: Scene Understanding, Object Understanding, Perception Assessment, and Collaborative Decision, across 14 task types. We construct the benchmark using data from challenging degraded-perception scenarios with annotated collaborative events, generating large-scale questions through model-, rule-, and human-based methods under rigorous quality control. Evaluations on 40 MLLMs show significant performance gaps in collaborative perception tasks, with the best model trailing humans by 24.38% on average and exhibiting inconsistent results across tasks. Fine-tuning experiments further confirm the feasibility of sim-to-real transfer in aerial collaborative perception and reasoning.