Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space

📄 arXiv: 2512.21887v1 📥 PDF

作者: Weichen Zhang, Peizhi Tang, Xin Zeng, Fanhang Man, Shiquan Yu, Zichao Dai, Baining Zhao, Hongjin Chen, Yu Shang, Wei Wu, Chen Gao, Xinlei Chen, Xin Wang, Yong Li, Wenwu Zhu

分类: cs.RO, cs.AI

发布日期: 2025-12-26


💡 一句话要点

提出ANWM空中导航世界模型,用于无人机长时程视觉生成与三维空间导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 无人机导航 世界模型 视觉预测 长时程规划 未来帧投影

📋 核心要点

  1. 现有无人机导航策略侧重底层目标,缺乏高层语义融入,限制了复杂环境下的自主导航能力。
  2. ANWM通过预测未来视觉观测,结合过去帧和动作,评估轨迹的语义合理性和导航效用。
  3. 引入未来帧投影(FFP)模块,提供几何先验,显著提升长距离视觉预测性能和导航成功率。

📝 摘要(中文)

本文提出了一种用于空中导航的世界模型ANWM,旨在解决无人机在大规模三维环境中自主导航的问题。现有导航策略通常只关注避障和轨迹平滑等底层目标,缺乏将高层语义信息融入规划的能力。ANWM通过预测未来视觉观测,并以过去的帧和动作为条件,使智能体能够根据语义合理性和导航效用对候选轨迹进行排序。ANWM在4自由度无人机轨迹上进行训练,并引入了受物理启发的模块:未来帧投影(FFP),该模块将过去的帧投影到未来的视点,以提供粗略的几何先验。这减轻了长距离视觉生成中的表征不确定性,并捕获了3D轨迹和自我中心观测之间的映射关系。实验结果表明,ANWM在长距离视觉预测方面显著优于现有的世界模型,并提高了无人机在大规模环境中的导航成功率。

🔬 方法详解

问题定义:现有无人机导航方法主要关注底层控制,例如避障和轨迹平滑,缺乏对环境语义信息的理解和利用。这导致无人机在复杂环境中难以做出全局最优的导航决策,尤其是在长距离导航任务中,容易陷入局部最优或导航失败。现有世界模型在长距离视觉预测方面存在不确定性,难以准确预测未来视觉观测。

核心思路:本文的核心思路是构建一个能够预测未来视觉观测的世界模型,该模型能够理解环境的语义信息,并根据过去的帧和动作预测未来的视觉输入。通过对候选轨迹进行视觉预测,并根据预测结果的语义合理性和导航效用对轨迹进行排序,从而实现更智能的导航决策。

技术框架:ANWM包含一个视觉编码器、一个动作编码器、一个状态转移模型和一个视觉解码器。视觉编码器将过去的视觉帧编码为视觉特征向量,动作编码器将过去的动作序列编码为动作特征向量。状态转移模型根据视觉特征向量和动作特征向量预测未来的状态。视觉解码器根据未来的状态预测未来的视觉观测。此外,ANWM还引入了未来帧投影(FFP)模块,该模块将过去的帧投影到未来的视点,以提供粗略的几何先验。

关键创新:ANWM的关键创新在于引入了未来帧投影(FFP)模块。FFP模块利用过去的视觉信息,通过几何变换预测未来的视觉观测,从而减轻了长距离视觉预测中的不确定性。FFP模块可以看作是一种物理先验,它将3D轨迹和自我中心观测联系起来,使得模型能够更好地理解环境的几何结构。

关键设计:FFP模块通过深度估计和相机位姿估计将过去的帧投影到未来的视点。具体来说,首先使用深度估计网络估计过去帧的深度图,然后使用相机位姿估计网络估计过去帧到未来帧的相机位姿变换。最后,使用深度图和相机位姿变换将过去的帧投影到未来的视点。损失函数包括视觉预测损失和导航成功率损失。视觉预测损失用于衡量预测的视觉观测与真实视觉观测之间的差异。导航成功率损失用于衡量无人机是否成功到达目标点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ANWM在长距离视觉预测方面显著优于现有的世界模型,例如SimVP和MCVD。在无人机导航任务中,ANWM的导航成功率比现有方法提高了15%以上。消融实验表明,FFP模块对ANWM的性能至关重要,去除FFP模块会导致性能显著下降。

🎯 应用场景

ANWM具有广泛的应用前景,例如自主巡检、环境监测、灾害救援和物流配送等。通过结合高层语义信息和视觉预测能力,ANWM可以使无人机在复杂环境中更加智能地导航,提高任务完成效率和安全性。该研究成果还可以应用于其他类型的机器人,例如地面机器人和水下机器人。

📄 摘要(原文)

Unmanned aerial vehicles (UAVs) have emerged as powerful embodied agents. One of the core abilities is autonomous navigation in large-scale three-dimensional environments. Existing navigation policies, however, are typically optimized for low-level objectives such as obstacle avoidance and trajectory smoothness, lacking the ability to incorporate high-level semantics into planning. To bridge this gap, we propose ANWM, an aerial navigation world model that predicts future visual observations conditioned on past frames and actions, thereby enabling agents to rank candidate trajectories by their semantic plausibility and navigational utility. ANWM is trained on 4-DoF UAV trajectories and introduces a physics-inspired module: Future Frame Projection (FFP), which projects past frames into future viewpoints to provide coarse geometric priors. This module mitigates representational uncertainty in long-distance visual generation and captures the mapping between 3D trajectories and egocentric observations. Empirical results demonstrate that ANWM significantly outperforms existing world models in long-distance visual forecasting and improves UAV navigation success rates in large-scale environments.