UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

作者: Xiangyu Wang, Donglin Yang, Yue Liao, Wenhao Zheng, wenjun wu, Bin Dai, Hongsheng Li, Si Liu

分类: cs.RO, cs.CV

发布日期: 2025-05-21 (更新: 2025-05-26)

💡 一句话要点

提出UAV-Flow基准，用于研究语言引导的无人机精细化轨迹模仿学习。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机控制 模仿学习 自然语言交互 视觉语言动作 真实世界基准

📋 核心要点

现有无人机研究主要集中在高层规划和长程导航，缺乏对语言引导的精细化轨迹控制的研究。
论文提出模仿学习框架，通过学习专家飞行员的轨迹和语言指令，实现无人机的精细控制。
论文构建了UAV-Flow基准，包含真实世界数据集、控制框架和仿真套件，实验表明VLA模型优于VLN。

📝 摘要（中文）

本文提出了一种新的无人机（UAV）交互方式，即通过语言指令实现更直观的人机交互。与以往关注高层规划和长程导航不同，本文侧重于语言引导的精细化轨迹控制，使无人机能够根据语言指令执行短程、反应式的飞行行为。我们将此问题形式化为“词上飞行”（Flow）任务，并引入无人机模仿学习作为有效方法。在该框架下，无人机通过模仿专家飞行员的轨迹和对应的原子语言指令来学习精细的控制策略。为了支持这种范式，我们提出了UAV-Flow，这是第一个用于语言条件、精细化无人机控制的真实世界基准。它包括任务定义、大规模数据集、可部署的控制框架以及用于系统评估的仿真套件。我们的设计使无人机能够紧密模仿人类飞行员的精确、专家级飞行轨迹，并支持直接部署，无需考虑模拟到真实的差距。我们在UAV-Flow上进行了大量实验，对VLN和VLA范式进行了基准测试。结果表明，VLA模型优于VLN基线，并突出了空间定位在精细化Flow设置中的关键作用。

🔬 方法详解

问题定义：论文旨在解决无人机如何根据自然语言指令进行精细化轨迹控制的问题。现有方法在高层规划和长程导航方面有所进展，但在短程、反应式的飞行行为控制方面存在不足，难以实现精确的语言引导飞行。

核心思路：论文的核心思路是将该问题形式化为“词上飞行”（Flow）任务，并采用模仿学习的方法。通过让无人机学习专家飞行员的飞行轨迹和对应的语言指令，使无人机能够模仿专家级的飞行控制策略。这种方法避免了手动设计控制策略的复杂性，并能够直接从数据中学习复杂的飞行行为。

技术框架：整体框架包括数据采集、模型训练和部署三个主要阶段。首先，通过人工驾驶无人机并记录飞行轨迹和对应的语言指令，构建大规模数据集。然后，使用该数据集训练模仿学习模型，学习语言指令到飞行控制指令的映射关系。最后，将训练好的模型部署到无人机上，使其能够根据接收到的语言指令进行飞行控制。该框架还包含一个仿真套件，用于在仿真环境中进行系统评估和调试。

关键创新：论文的关键创新在于提出了UAV-Flow基准，这是第一个用于语言条件、精细化无人机控制的真实世界基准。该基准包含大规模数据集、可部署的控制框架以及用于系统评估的仿真套件，为该领域的研究提供了有力支持。此外，论文还强调了空间定位在精细化Flow设置中的关键作用，并验证了VLA模型优于VLN基线。

关键设计：论文中，数据集包含专家飞行员的飞行轨迹和对应的原子语言指令。模仿学习模型采用视觉语言动作（VLA）模型，该模型能够同时处理视觉信息和语言信息，并输出相应的飞行控制指令。损失函数采用均方误差（MSE）损失函数，用于衡量模型输出的飞行控制指令与专家飞行员的飞行控制指令之间的差异。网络结构采用Transformer结构，用于捕捉语言指令和视觉信息之间的长期依赖关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在UAV-Flow基准上，VLA模型优于VLN基线，验证了空间定位在精细化Flow设置中的重要性。具体而言，VLA模型在模仿专家飞行员的轨迹方面表现出更高的精度和鲁棒性，能够更好地适应不同的环境和语言指令。

🎯 应用场景

该研究成果可应用于无人机巡检、物流配送、搜救等领域。通过自然语言指令，用户可以更方便地控制无人机执行各种任务，例如“飞到红色建筑物上方”、“靠近目标并拍摄照片”等。该技术还可以用于开发更智能的无人机交互界面，提升用户体验，并降低无人机操作的门槛。

📄 摘要（原文）

Unmanned Aerial Vehicles (UAVs) are evolving into language-interactive platforms, enabling more intuitive forms of human-drone interaction. While prior works have primarily focused on high-level planning and long-horizon navigation, we shift attention to language-guided fine-grained trajectory control, where UAVs execute short-range, reactive flight behaviors in response to language instructions. We formalize this problem as the Flying-on-a-Word (Flow) task and introduce UAV imitation learning as an effective approach. In this framework, UAVs learn fine-grained control policies by mimicking expert pilot trajectories paired with atomic language instructions. To support this paradigm, we present UAV-Flow, the first real-world benchmark for language-conditioned, fine-grained UAV control. It includes a task formulation, a large-scale dataset collected in diverse environments, a deployable control framework, and a simulation suite for systematic evaluation. Our design enables UAVs to closely imitate the precise, expert-level flight trajectories of human pilots and supports direct deployment without sim-to-real gap. We conduct extensive experiments on UAV-Flow, benchmarking VLN and VLA paradigms. Results show that VLA models are superior to VLN baselines and highlight the critical role of spatial grounding in the fine-grained Flow setting.

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理