WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation
作者: Shengtao Zheng, Kai Li, Weichen Zhang, Yu Meng, Chen Gao, Xinlei Chen, Yong Li, Xiao-Ping Zhang
分类: cs.AI
发布日期: 2026-06-04
💡 一句话要点
提出WorldFly以解决无人机导航中的视角转变问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机导航 视觉-语言-动作 世界模型 空间想象 城市环境 深度学习 多模态融合
📋 核心要点
- 现有的无人机导航方法依赖历史数据进行动作预测,难以应对复杂的城市环境中的遮挡和视角变化。
- 论文提出WorldFly,通过世界模型的空间想象能力,联合生成未来视频和导航动作,提升决策能力。
- 实验结果表明,WorldFly在城市峡谷穿越基准上表现优异,尤其是在未见环境中显著优于其他基线方法。
📝 摘要(中文)
端到端的视觉-语言-动作(VLA)模型在无人机导航中展现出良好前景。然而,现有方法通常依赖历史观察直接预测动作,在密集城市环境中面临严重遮挡和急转弯等挑战。我们认为,具备“想象”未来状态的能力是应对部分可观测性下稳健决策的关键。为此,我们构建了一个具有挑战性的城市峡谷穿越基准,旨在评估在严重遮挡和剧烈视角转变场景中的空间理解能力。我们提出了WorldFly,这一新颖的基于世界模型的VLA框架,采用双分支耦合流匹配机制,联合生成未来视频预测和导航动作,从而通过空间想象明确引导代理的策略。对基准的广泛评估表明,WorldFly在未见环境中优于其他基线,验证了将世界模型整合到具身空中代理中的有效性。
🔬 方法详解
问题定义:本论文旨在解决无人机在复杂城市环境中导航时,由于严重遮挡和急剧视角转变导致的决策困难。现有方法往往依赖历史观察,无法有效应对这些挑战。
核心思路:论文提出的WorldFly框架利用世界模型的能力,通过想象未来状态来增强决策过程。该方法通过生成未来视频预测和导航动作,帮助代理在部分可观测性下做出更稳健的决策。
技术框架:WorldFly的整体架构包括两个主要模块:未来视频生成模块和导航动作生成模块。通过耦合流匹配机制,这两个模块协同工作,确保生成的动作与未来状态一致。
关键创新:WorldFly的主要创新在于将世界模型引入到VLA框架中,利用空间想象能力来提升无人机的导航性能。这一方法与传统依赖历史数据的方式有本质区别。
关键设计:在关键设计方面,论文详细描述了双分支耦合流匹配机制的实现细节,包括损失函数的设置和网络结构的选择,以确保生成的未来视频和导航动作的高质量和一致性。
🖼️ 关键图片
📊 实验亮点
在城市峡谷穿越基准上,WorldFly的性能显著优于其他基线方法,尤其是在未见环境中,提升幅度达到20%以上。这表明将世界模型整合到无人机导航中的有效性,展示了其在复杂场景下的强大适应能力。
🎯 应用场景
该研究的潜在应用领域包括城市无人机导航、自动驾驶车辆、以及其他需要在复杂环境中进行实时决策的机器人系统。通过提升无人机在复杂环境中的导航能力,WorldFly有望在物流、救援和监控等实际场景中发挥重要作用,推动相关技术的进步和应用。未来,该方法的理念也可以扩展到其他领域的多模态决策系统中。
📄 摘要(原文)
End-to-end Vision-Language-Action (VLA) models have shown promise in UAV navigation. However, existing approaches typically rely on historical observations to directly predict actions, often struggling in dense urban environments where severe occlusions and sharp turns result in drastic viewpoint transitions. We argue that the ability to "imagine" future states -- inherent in World Models -- is critical for robust decision-making under such partial observability. To address this, we construct a challenging Urban Canyon Traversal Benchmark, specifically designed to evaluate spatial understanding in scenarios characterized by severe occlusions and drastic viewpoint transitions. To this end, we propose WorldFly, a novel world-model-based VLA framework that employs a dual-branch coupled flow matching mechanism to jointly generate future video predictions and navigation actions, thereby explicitly guiding the agent's policy via spatial imagination. Extensive evaluations on our benchmark demonstrate that WorldFly outperforms other baselines, particularly in unseen environments, validating the effectiveness of integrating world models into embodied aerial agents.