Can Aerial VLA Models Cooperate? Evaluating Closed-Loop Air-Ground Coordination with CARLA-Air

📄 arXiv: 2605.31066v1 📥 PDF

作者: Tianle Zeng, Yanci Wen, Xueang Yu, Hong Zhang

分类: cs.RO

发布日期: 2026-05-29

备注: Code at https://github.com/louiszengCN/CarlaAir

🔗 代码/项目: GITHUB


💡 一句话要点

CARLA-Air:评估空中VLA模型在空地协同中的闭环性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空地协同 视觉-语言-动作模型 无人机 无人车 仿真环境 CARLA-Air 闭环控制 多智能体系统

📋 核心要点

  1. 现有空中VLA模型在单无人机任务中表现出色,但在空地协同中面临挑战,难以实现稳定合作。
  2. 论文提出CARLA-Air环境,统一CARLA和AirSim,实现物理一致的空地交互和精确的延迟测量。
  3. 实验表明,现有VLA模型在空地协同中表现不佳,需要显式伙伴状态 grounding、低延迟协同和团队目标对齐。

📝 摘要(中文)

本文研究了空中视觉-语言-动作(VLA)模型在空地协同中的应用,即无人机(UAV)和无人地面车辆(UGV)在共享的闭环物理世界中协同行动。为此,作者提出了CARLA-Air,一个单进程空地评估环境,它将CARLA和AirSim统一在Unreal Engine运行时中。CARLA-Air通过共享相同的世界状态、物理tick和感知管道,实现了物理上一致的无人机-无人车交互,并能精确测量仿真时间戳对齐和有效协同延迟。作者使用CARLA-Air评估了代表性的空中VLA和规划基线在移动平台着陆和遮挡恢复护送两个诊断任务上的性能。结果表明,当前的空中VLA模型通常可以跟踪或跟随地面伙伴,但难以将这种单智能体能力转化为稳定的协同行为。状态提示提供的益处有限,而朴素的双向交互未能持续提高性能,反而可能放大错误。研究结果表明,在测试的基于文本提示的接口下,零样本协同空地VLA需要三个超出当前范式的组件:显式的伙伴状态 grounding、低延迟的动作协同和团队层面的目标对齐。

🔬 方法详解

问题定义:现有空中视觉-语言-动作(VLA)模型在单无人机任务(如目标跟踪、导航)中表现出潜力,但缺乏在复杂空地协同场景下的有效评估。现有仿真环境难以保证空地交互的物理一致性,也无法精确测量协同延迟,阻碍了空地协同VLA模型的发展。因此,需要一个能够模拟真实物理交互、精确测量协同延迟的空地协同评估环境。

核心思路:论文的核心思路是构建一个统一的仿真环境CARLA-Air,该环境能够同时模拟空中和地面车辆,并保证它们之间的物理交互一致性。通过共享世界状态、物理引擎和感知管道,CARLA-Air能够提供精确的协同延迟测量,从而为评估和改进空地协同VLA模型提供基础。

技术框架:CARLA-Air基于Unreal Engine,将CARLA和AirSim集成到同一个进程中。整体框架包含以下几个主要模块: 1. 环境模拟:使用CARLA模拟地面环境和车辆,使用AirSim模拟空中环境和无人机。 2. 物理引擎:共享Unreal Engine的物理引擎,保证空地车辆之间的物理交互一致性。 3. 感知管道:共享感知管道,提供一致的视觉和深度信息。 4. 通信接口:提供基于文本的通信接口,模拟无人机和无人车之间的信息交互。 5. 评估指标:定义了用于评估空地协同性能的指标,如协同延迟、任务完成率等。

关键创新:CARLA-Air的关键创新在于其单进程架构,它通过共享世界状态、物理引擎和感知管道,实现了物理上一致的空地交互,并能够精确测量协同延迟。这与以往的空地协同仿真环境不同,以往的环境通常是独立运行的,难以保证物理一致性和精确的延迟测量。

关键设计:CARLA-Air的关键设计包括: 1. 单进程架构:保证空地车辆之间的物理交互一致性。 2. 共享感知管道:提供一致的视觉和深度信息。 3. 基于文本的通信接口:模拟无人机和无人车之间的信息交互。 4. 诊断任务:设计了移动平台着陆和遮挡恢复护送两个诊断任务,用于评估空地协同VLA模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的空中VLA模型在CARLA-Air环境中进行空地协同任务时表现不佳。例如,在移动平台着陆任务中,即使无人机能够跟踪地面车辆,也难以稳定地降落在移动平台上。状态提示和双向交互未能显著提高性能,反而可能放大错误。这些结果表明,零样本空地协同VLA需要更有效的伙伴状态 grounding、低延迟动作协同和团队目标对齐。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的空地协同系统,例如在物流配送、灾害救援、环境监测等领域,无人机和无人车可以协同完成复杂的任务。CARLA-Air环境为开发和评估这些系统提供了一个有力的工具,加速了相关技术的发展和应用。

📄 摘要(原文)

Recent aerial vision-language-action (VLA) models show promising single-UAV capabilities, such as tracking moving objects and navigating to language-specified landmarks. However, it remains unclear whether these capabilities can transfer to air-ground cooperation, where a UAV and a UGV must act jointly in a shared, closed-loop physical world. We study this question with CARLA-Air, a single-process air-ground evaluation environment that unifies CARLA and AirSim inside one Unreal Engine runtime. By sharing the same world state, physics tick, and sensing pipeline, CARLA-Air enables physically consistent UAV--UGV interaction and precise measurement of simulation-timestamp alignment and effective coordination latency. Using CARLA-Air, we evaluate representative aerial VLA and planning baselines on two complementary diagnostic tasks: moving-platform landing and occlusion-recovery escort. The results show that current aerial VLA models can often track or follow a ground partner, but struggle to convert this single-agent competence into stable cooperative behavior. State prompting provides limited benefit, and naive bidirectional interaction fails to consistently improve performance and can amplify errors for most baselines. These findings suggest that, under the tested text-based cue interfaces, zero-shot cooperative air-ground VLA requires three components beyond the current paradigm: explicit partner-state grounding, low-latency action coordination, and team-level objective alignment. Our code is available at https://github.com/louiszengCN/CarlaAir.