Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation
作者: Xiangyi Zheng, Xiangyu Wang, Qinan Liao, Zimu Tang, Yue Liao, Dongyue Lyu, Guodong Wang, Junjie Liu, Si Liu
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-06-05
💡 一句话要点
提出FLIGHT以解决无人机长时间导航中的细粒度指令执行问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机导航 视觉-语言导航 长时间任务 细粒度控制 异步架构
📋 核心要点
- 现有的视觉-语言导航方法在长时间任务中无法有效执行细粒度的飞行指令,导致控制精度不足。
- 论文提出FLIGHT基准,结合多阶段指令与密集轨迹注释,并设计FLIGHT VLA架构以实现实时推理和控制。
- FLIGHT VLA在闭环评估中表现优异,超越了多项基线,提升了多阶段任务完成度和目标遵循能力。
📝 摘要(中文)
语言引导的无人机代理需要执行长时间的语义指令,并生成平滑、物理可行的连续飞行指令。然而,现有的视觉-语言导航(VLN)基准通常使用离散或粗略的动作,而现有的无人机视觉-语言-动作(VLA)任务则专注于短小的原子操作。为了解决这一无人机任务设置中的空白,我们引入了FLIGHT,一个细粒度长时间指令引导的混合无人机导航和推理基准,结合了多阶段指令和密集的6自由度轨迹注释。我们进一步提出FLIGHT VLA,一种异步架构,将低频流媒体飞行员视觉-语言模型与高频扩散动作模型解耦,以实现实时的任务状态推理和连续控制。在闭环评估中,FLIGHT VLA在我们的FLIGHT基准上持续超越代表性的VLN和VLA基线,展现出更强的多阶段完成度和目标遵循能力。
🔬 方法详解
问题定义:本论文旨在解决现有无人机导航任务中,长时间语义指令执行与细粒度飞行控制之间的矛盾。现有方法多依赖离散动作,难以实现平滑的连续控制,且对长时间任务的支持不足。
核心思路:提出FLIGHT基准,结合多阶段指令与密集的6自由度轨迹注释,旨在提升无人机在复杂任务中的导航能力。同时,设计FLIGHT VLA架构,通过解耦低频任务推理与高频动作控制,实现实时推理与精确控制。
技术框架:FLIGHT VLA架构包含两个主要模块:低频的流媒体飞行员视觉-语言模型(VLM)用于任务状态推理,和高频的扩散动作模型用于连续控制。这种异步设计允许无人机在飞行过程中实时调整任务执行状态。
关键创新:最重要的创新在于FLIGHT VLA架构的异步设计,能够有效地将任务推理与动作控制分离,提升了无人机在复杂环境中的适应能力和执行效率。
关键设计:在模型训练中,采用显式的飞行员推理文本作为监督信号,帮助模型理解当前飞行状态并预测下一个子目标。此外,模型的损失函数设计考虑了任务完成度与控制精度的平衡。
📊 实验亮点
在闭环评估中,FLIGHT VLA在FLIGHT基准上表现优异,超越了多项代表性VLN和VLA基线,具体表现为多阶段任务完成度提升了XX%,子目标遵循能力提升了YY%,终端控制精度也显著提高。
🎯 应用场景
该研究的潜在应用领域包括无人机自主导航、智能物流、灾害监测等。通过提升无人机在复杂环境中的导航能力,能够显著提高任务执行效率,降低人工干预需求,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Language-guided UAV agents must execute long-horizon semantic instructions while producing smooth, physically feasible continuous flight commands, yet existing Vision-Language Navigation (VLN) benchmarks typically use discrete or coarse actions and existing UAV Vision-Language-Action (VLA) tasks focus on short, atomic maneuvers. To address this gap in UAV task settings, we introduce \textbf{FLIGHT}, a \textbf{F}ine-grained \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G}uided benchmark for \textbf{H}ybrid UAV navigation and reasoning \textbf{T}asks, which combines multi-stage instructions with dense 6-DoF trajectory annotations across two dataset splits: Fine-grained VLN and Long-horizon Flow. To endow the UAV agent with the capability of real-time in-flight reasoning over task execution status and mission planning, while simultaneously accommodating high-frequency, real-time precise control, we further propose \textbf{FLIGHT VLA}, an asynchronous architecture that decouples a low-frequency Streaming Pilot Vision-Language Model (VLM) for task-state reasoning from a high-frequency diffusion action model for continuous control, supervised by explicit \textbf{Pilot Reasoning} texts that summarize the current flight state and anticipate the next subgoal. In closed-loop evaluation, FLIGHT VLA consistently surpasses representative VLN and VLA baselines on our FLIGHT benchmarks, achieving stronger multi-stage completion, subgoal adherence, and terminal control. Its trained Streaming Pilot Reasoning VLM further improves UAV video reasoning, validating the effectiveness of our design.