WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation
作者: Baining Zhao, Jiacheng Xu, Weicheng Feng, Xin Zhang, Zhaolu Wang, Haoyang Wang, Shilong Ji, Ziyou Wang, Jianjie Fang, Zhiheng Zheng, Weichen Zhang, Yu Shang, Wei Wu, Chen Gao, Xinlei Chen, Yong Li
分类: cs.RO, cs.CV
发布日期: 2026-05-15
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出WorldVLN,用于空中视觉语言导航的自回归世界行为模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空中视觉语言导航 自回归模型 世界模型 强化学习 无人机导航
📋 核心要点
- 现有空中视觉语言导航方法缺乏对环境演化的有效建模,难以应对复杂场景。
- WorldVLN通过自回归模型预测世界状态转换,并将预测结果直接解码为可执行的航点动作。
- 实验表明,WorldVLN在多个基准测试中显著优于现有方法,成功率提升超过12%。
📝 摘要(中文)
本文提出WorldVLN,一种用于空中视觉语言导航(VLN)的自回归世界行为模型。空中VLN要求智能体在3D环境中通过闭环感知和行动来遵循自然语言指令。本文将空中VLN建模为一个预测驱动的世界-行为问题:智能体应预测潜在的世界演变,并根据预测的后果采取行动。WorldVLN不同于生成完整视频片段的完整序列视频生成世界模型,它采用潜在的自回归视频骨干网络来预测短时程世界状态转换,并将其直接解码为可执行的航点动作。在执行每个动作段后,新接收到的观察结果被编码回自回归上下文,从而实现闭环世界-行为预测。进一步引入了一个两阶段训练框架,首先将视频先验知识融入指令条件导航动态中,然后开发了Action-aware GRPO,这是一种专为自回归WAM量身定制的强化学习方法,通过其下游展开结果来优化航点决策。在公共的室外和室内基准测试中,WorldVLN始终优于现有的视觉-语言-动作基线,成功率提高了12%以上,并且在具有挑战性的案例中具有更大的优势。它进一步零样本迁移到真实的无人机部署,表明所提出的WorldVLN为空间动作任务提供了一条有希望的途径。
🔬 方法详解
问题定义:空中视觉语言导航(VLN)任务要求智能体根据自然语言指令,在三维环境中进行导航。现有方法通常难以有效建模环境的动态变化,导致在复杂或未知的环境中表现不佳。痛点在于如何让智能体具备预测未来状态的能力,从而做出更合理的决策。
核心思路:论文的核心思路是将空中VLN问题转化为一个预测驱动的世界-行为问题。智能体通过预测环境的未来状态(世界状态转换),并根据预测的后果来选择合适的动作。这种方法的核心在于利用自回归模型来学习环境的动态特性,从而提高智能体的导航能力。
技术框架:WorldVLN的整体框架包含以下几个主要模块:1) 视觉编码器:将输入的视觉信息编码成特征向量。2) 语言编码器:将自然语言指令编码成特征向量。3) 自回归世界模型:利用自回归模型预测短时程的世界状态转换。4) 动作解码器:将预测的世界状态转换解码为可执行的航点动作。5) 强化学习模块:使用Action-aware GRPO算法优化航点决策。整个流程是一个闭环过程,智能体执行动作后,新的观察结果会被编码回自回归上下文,用于下一步的预测。
关键创新:最重要的创新点在于提出了自回归世界行为模型(Autoregressive World Action Model)用于空中VLN。与传统的视频生成模型不同,WorldVLN专注于预测短时程的世界状态转换,并直接将其解码为可执行的动作。此外,Action-aware GRPO算法是专门为自回归WAM设计的强化学习方法,能够有效优化航点决策。
关键设计:WorldVLN采用了两阶段训练框架。第一阶段,将视频先验知识融入指令条件导航动态中。第二阶段,使用Action-aware GRPO算法进行强化学习,优化航点决策。Action-aware GRPO算法的关键在于考虑了动作对未来状态的影响,从而更好地指导智能体的学习。具体的损失函数和网络结构细节在论文中有详细描述,包括自回归模型的具体结构和强化学习算法的实现细节。
🖼️ 关键图片
📊 实验亮点
WorldVLN在公共的室外和室内基准测试中取得了显著的性能提升,成功率提高了12%以上。尤其是在具有挑战性的案例中,WorldVLN的优势更加明显。此外,WorldVLN还成功地零样本迁移到真实的无人机部署中,验证了其在实际应用中的可行性。
🎯 应用场景
WorldVLN具有广泛的应用前景,例如无人机自主导航、机器人室内导航、增强现实游戏等。该研究可以提高智能体在复杂环境中的导航能力,降低对人工干预的依赖,并为空间动作任务提供更智能的解决方案。未来,该技术有望应用于物流配送、安防巡逻、环境监测等领域。
📄 摘要(原文)
Aerial vision-language navigation (VLN) requires agents to follow natural-language instructions through closed-loop perception and action in 3D environments. We argue that aerial VLN can be formulated as a prediction-driven world-action problem: the agent should anticipate latent world evolution and act according to the predicted consequences. To this end, we propose WorldVLN, the first autoregressive world action model for aerial VLN. Unlike full-sequence video-generation world models that generate an entire visual clip, WorldVLN adapts a latent autoregressive video backbone to predict short-horizon world-state transitions and directly decodes them into executable waypoint actions. After each action segment is executed, newly received observations are encoded back into the autoregressive context, enabling closed-loop world-action prediction. We further introduce a two-stage training framework that first grounds the video prior in instruction-conditioned navigation dynamics and then develops Action-aware GRPO, the first reinforcement learning method tailored to autoregressive WAMs, to optimize waypoint decisions through their downstream rollout consequences. On public outdoor and indoor benchmarks, WorldVLN consistently outperforms existing Vision-Language-Action baselines with 12\%+ success-rate gains and larger advantages on challenging cases. It further transfers zero-shot to real drone deployment, suggesting that the proposed WorldVLN offers a promising route for spatial action tasks. Demos and code are available at https://embodiedcity.github.io/WorldVLN/.