FlyMirage: A Fully Automated Generation Pipeline for Diverse and Scalable UAV Flight Data via Generative World Model

📄 arXiv: 2605.19600v1 📥 PDF

作者: Jinhan Li, Xijie Huang, Zhaoqi Wang, Yijin Wang, Weiqi Ge, Qiyi He, Mo Zhu, Fei Gao, Yuze Wu, Xin Zhou

分类: cs.RO

发布日期: 2026-05-19


💡 一句话要点

FlyMirage:基于生成世界模型全自动生成多样且可扩展的无人机飞行数据

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言导航 数据生成 生成世界模型 大型语言模型 3D高斯溅射 自主探索

📋 核心要点

  1. 现有的空中视觉-语言导航数据集在规模、多样性和真实性上存在不足,限制了相关模型的发展。
  2. FlyMirage利用大型语言模型生成多样化场景设计,并使用生成世界模型将其转化为高保真3D场景。
  3. 该流程实现了场景探索、语义信息获取和无人机轨迹生成的自动化,降低了人工成本,并保证了轨迹的可行性。

📝 摘要(中文)

本文提出FlyMirage,一个高度可扩展且全自动的空中视觉-语言导航(VLN)数据生成流程。针对空中数据集在规模、多样性和真实性方面的局限性,该方法利用大型语言模型(LLM)作为环境设计器来提升场景多样性,并结合生成世界模型将这些设计实例化为高保真3D高斯溅射(3DGS)场景。为了大幅减少人工干预并确保飞行数据的可行性,FlyMirage实现了场景探索和语义信息获取的自动化,并进一步集成了动态可行的规划器用于无人机(UAV)轨迹生成。利用该工具链,我们生成了一个大规模、多样化和照片般真实的空中VLN数据集,其中包含动态可行的飞行轨迹,旨在支持下一代具身导航模型的开发。

🔬 方法详解

问题定义:现有的空中视觉-语言导航(VLN)数据集通常难以兼顾规模、多样性和真实性。真实世界的数据采集成本高昂,而纯粹的仿真数据在视觉效果上存在局限性,难以训练出泛化能力强的模型。因此,如何高效地生成大规模、多样且逼真的空中VLN数据是一个关键问题。

核心思路:FlyMirage的核心思路是利用大型语言模型(LLM)的强大生成能力来设计多样化的场景,并结合生成世界模型将这些场景实例化为高保真度的3D环境。通过自动化场景探索和轨迹生成,减少人工干预,并保证生成数据的可行性。这种方法旨在克服现有数据集的局限性,为空中VLN模型提供更有效的训练数据。

技术框架:FlyMirage的整体流程包括以下几个主要模块:1) 环境设计:使用LLM生成场景描述,控制场景的布局和语义信息。2) 场景实例化:利用生成世界模型(基于3D高斯溅射)将场景描述转化为高保真度的3D场景。3) 场景探索与语义信息获取:自动化地探索3D场景,并提取必要的语义信息,例如地标和导航点。4) 轨迹生成:使用动态可行的规划器生成无人机的飞行轨迹,确保轨迹的可行性和安全性。

关键创新:FlyMirage的关键创新在于将LLM、生成世界模型和动态可行规划器集成到一个全自动化的数据生成流程中。与以往依赖人工设计的场景或简单的仿真环境相比,FlyMirage能够生成更大规模、更多样化和更逼真的空中VLN数据。此外,自动化的场景探索和轨迹生成显著降低了人工成本,提高了数据生成的效率。

关键设计:在环境设计阶段,LLM被用于生成包含场景布局、地标和导航指令的文本描述。生成世界模型使用3D高斯溅射技术来渲染高保真度的3D场景。动态可行规划器考虑了无人机的动力学约束,生成平滑且可执行的飞行轨迹。具体的参数设置和损失函数细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlyMirage生成了一个大规模、多样化和照片般真实的空中VLN数据集,包含动态可行的飞行轨迹。虽然论文中没有提供具体的性能数据和对比基线,但强调了该数据集旨在支持下一代具身导航模型的开发,并克服现有数据集在规模、多样性和真实性方面的局限性。数据集的规模和多样性是其主要亮点。

🎯 应用场景

FlyMirage生成的空中VLN数据集可用于训练和评估各种无人机导航算法,例如视觉-语言导航、自主探索和目标跟踪。该技术在物流配送、环境监测、灾害救援等领域具有广泛的应用前景。通过提供高质量的训练数据,FlyMirage有望推动无人机自主导航技术的发展,并加速其在实际场景中的应用。

📄 摘要(原文)

In the field of Vision-Language Navigation (VLN), aerial datasets remain limited in their ability to combine scale, diversity, and realism, often relying on either costly real-world scenes or visually limited simulations. To address these challenges, we introduce FlyMirage, a highly scalable and fully automated data generation pipeline for aerial VLN. Our approach leverages large language models (LLM) as an environment designer to promote scene diversity, paired with a generative world model that instantiates these designs into high-fidelity 3D Gaussian Splatting (3DGS) scenes. To substantially reduce human labor and ensure the feasibility of flight data, FlyMirage automates scene exploration and semantic information acquisition, and further integrates a dynamically feasible planner for uncrewed aerial vehicle (UAV) trajectory generation. Utilizing this toolchain, we generate a large-scale, diverse, and photorealistic aerial VLN dataset, with dynamically feasible flying trajectories, designed to support the development of next-generation embodied navigation models.