AirScape: An Aerial Generative World Model with Motion Controllability

📄 arXiv: 2507.08885v2 📥 PDF

作者: Baining Zhao, Rongze Tang, Mingyuan Jia, Ziyou Wang, Fanghang Man, Xin Zhang, Yu Shang, Weichen Zhang, Wei Wu, Chen Gao, Xinlei Chen, Yong Li

分类: cs.RO, cs.AI

发布日期: 2025-07-10 (更新: 2025-10-10)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AirScape:提出一种运动可控的空中生成世界模型,用于无人机三维空间预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 空中机器人 运动预测 具身智能 生成模型

📋 核心要点

  1. 现有方法难以让智能体预测自身运动意图在三维空间中的结果,限制了具身智能的发展。
  2. AirScape通过构建空中数据集和两阶段训练策略,使模型能够基于视觉输入和运动意图预测未来观测序列。
  3. 实验表明,AirScape在三维空间想象能力上显著优于现有模型,运动对齐指标提升超过50%。

📝 摘要(中文)

本文提出AirScape,一种专为六自由度空中智能体设计的世界模型,旨在解决具身智能中智能体预测自身运动意图在三维空间中结果的根本问题。AirScape基于当前视觉输入和运动意图预测未来的观测序列。为此,作者构建了一个包含11k视频-意图对的空中世界模型训练和测试数据集,该数据集包含第一人称视角的无人机视频,捕捉了各种场景下的无人机动作,并花费超过1000小时标注相应的运动意图。此外,作者还开发了一个两阶段训练策略,将一个最初缺乏具身空间知识的基础模型训练成一个可由运动意图控制并符合物理时空约束的世界模型。实验结果表明,AirScape在三维空间想象能力方面显著优于现有的基础模型,尤其是在反映运动对齐的指标上,性能提升超过50%。

🔬 方法详解

问题定义:论文旨在解决空中机器人在三维空间中进行运动规划和预测的问题。现有方法在处理复杂环境和高自由度运动时,预测精度和泛化能力不足,难以满足实际应用需求。因此,需要一种能够理解运动意图并准确预测未来状态的世界模型。

核心思路:论文的核心思路是构建一个可控的生成世界模型,该模型能够根据当前的视觉输入和运动意图,预测未来一段时间内的观测序列。通过学习大量无人机飞行数据,模型能够理解不同运动意图与环境变化之间的关系,从而实现更准确的预测。

技术框架:AirScape的整体框架包含数据收集、模型训练和评估三个主要阶段。首先,构建一个包含大量无人机飞行视频和对应运动意图的数据集。然后,采用两阶段训练策略,首先训练一个基础模型,使其具备初步的视觉理解能力,然后通过运动意图控制训练,使其能够根据运动意图预测未来状态。最后,通过一系列指标评估模型的预测精度和运动对齐能力。

关键创新:AirScape的关键创新在于其针对空中环境设计的世界模型和两阶段训练策略。与现有方法相比,AirScape更关注运动意图的控制,能够更好地理解和预测无人机的运动轨迹。此外,两阶段训练策略能够有效地将基础模型的视觉理解能力迁移到运动预测任务中。

关键设计:AirScape采用了两阶段训练策略。第一阶段,使用大量无标签数据预训练一个基础模型,使其具备初步的视觉理解能力。第二阶段,使用带标签的运动意图数据,通过对比学习和生成对抗网络等技术,训练模型根据运动意图预测未来状态。损失函数包括重构损失、运动对齐损失和对抗损失等,用于约束模型的预测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AirScape在三维空间想象能力方面显著优于现有的基础模型,尤其是在反映运动对齐的指标上,性能提升超过50%。这表明AirScape能够更准确地理解和预测无人机的运动轨迹,为无人机自主导航和智能监控等应用提供了有力支持。

🎯 应用场景

AirScape可应用于无人机自主导航、智能监控、三维重建等领域。通过预测无人机的未来状态,可以提高无人机的安全性、稳定性和智能化水平。此外,该研究还可以为其他类型的机器人提供参考,促进具身智能的发展,例如自动驾驶、机器人导航等。

📄 摘要(原文)

How to enable agents to predict the outcomes of their own motion intentions in three-dimensional space has been a fundamental problem in embodied intelligence. To explore general spatial imagination capability, we present AirScape, the first world model designed for six-degree-of-freedom aerial agents. AirScape predicts future observation sequences based on current visual inputs and motion intentions. Specifically, we construct a dataset for aerial world model training and testing, which consists of 11k video-intention pairs. This dataset includes first-person-view videos capturing diverse drone actions across a wide range of scenarios, with over 1,000 hours spent annotating the corresponding motion intentions. Then we develop a two-phase schedule to train a foundation model--initially devoid of embodied spatial knowledge--into a world model that is controllable by motion intentions and adheres to physical spatio-temporal constraints. Experimental results demonstrate that AirScape significantly outperforms existing foundation models in 3D spatial imagination capabilities, especially with over a 50% improvement in metrics reflecting motion alignment. The project is available at: https://embodiedcity.github.io/AirScape/.