CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory

作者: Weichen Zhang, Chen Gao, Shiquan Yu, Ruiying Peng, Baining Zhao, Qian Zhang, Jinqiang Cui, Xinlei Chen, Yong Li

分类: cs.RO, cs.AI

发布日期: 2025-05-08

期刊: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

DOI: 10.18653/v1/2025.acl-long.1511

🔗 代码/项目: GITHUB

💡 一句话要点

CityNavAgent：基于分层语义规划和全局记忆的空中视觉-语言导航

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空中导航 视觉语言导航 大型语言模型 分层语义规划 全局记忆

📋 核心要点

空中VLN任务缺乏预定义的导航图，且长程探索中动作空间呈指数级增长，对现有地面VLN方法构成挑战。
CityNavAgent利用LLM，通过分层语义规划模块将长程任务分解为子目标，降低导航复杂性。
全局记忆模块存储历史轨迹到拓扑图中，简化已访问目标的导航，实验证明了其有效性和性能提升。

📝 摘要（中文）

本文提出CityNavAgent，一种基于大型语言模型（LLM）的智能体，旨在显著降低城市空中视觉-语言导航（VLN）的复杂性。该任务要求无人机理解自然语言指令并在复杂的城市环境中导航。CityNavAgent包含一个分层语义规划模块（HSPM），将长程任务分解为具有不同语义级别的子目标，智能体通过实现这些子目标逐步达到最终目标。此外，还开发了一个全局记忆模块，将历史轨迹存储到拓扑图中，以简化已访问目标的导航。大量基准实验表明，该方法取得了最先进的性能，并有显著改进。进一步的实验证明了CityNavAgent的不同模块在连续城市环境中进行空中VLN的有效性。

🔬 方法详解

问题定义：空中视觉-语言导航（Aerial VLN）任务要求无人机根据自然语言指令在复杂的城市环境中导航。现有方法主要针对地面环境，缺乏预定义的导航图，并且在长程探索中，动作空间会呈指数级增长，导致导航效率低下和难以探索。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大语义理解和规划能力，将复杂的长程导航任务分解为一系列更易于管理的子目标。通过分层语义规划，智能体可以逐步逼近目标，同时利用全局记忆来避免重复探索已访问过的区域。

技术框架：CityNavAgent的整体框架包含两个主要模块：分层语义规划模块（HSPM）和全局记忆模块。HSPM利用LLM将长程指令分解为不同语义级别的子目标，例如“到达十字路口”、“左转”等。智能体首先尝试实现最高级别的子目标，如果成功，则继续下一个子目标；否则，分解为更低级别的子目标。全局记忆模块则维护一个拓扑图，记录智能体的历史轨迹，用于简化已访问目标的导航。

关键创新：该论文的关键创新在于将大型语言模型引入到空中VLN任务中，并设计了分层语义规划模块，有效地降低了导航的复杂性。与传统的基于强化学习或图搜索的方法相比，CityNavAgent能够更好地理解自然语言指令，并进行更有效的长程规划。全局记忆模块进一步提升了导航效率，避免了重复探索。

关键设计：HSPM模块的关键设计在于如何有效地利用LLM进行语义分解。论文中使用了特定的prompt工程来引导LLM生成合适的子目标。全局记忆模块的关键设计在于如何维护和更新拓扑图，以及如何利用该图来指导导航。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CityNavAgent在空中VLN任务中取得了state-of-the-art的性能，相较于现有方法有显著提升。具体的数据指标和对比基线在论文中进行了详细展示（未知）。实验还验证了HSPM和全局记忆模块的有效性，证明了它们在提升导航效率和准确性方面的作用。

🎯 应用场景

CityNavAgent在无人机自主导航、城市物流、灾害救援、环境监测等领域具有广泛的应用前景。通过理解自然语言指令，无人机可以更灵活地执行各种任务，例如根据指令运送包裹到指定地点，或在灾害现场搜索幸存者。该研究有助于推动人机交互和机器人技术的进步。

📄 摘要（原文）

Aerial vision-and-language navigation (VLN), requiring drones to interpret natural language instructions and navigate complex urban environments, emerges as a critical embodied AI challenge that bridges human-robot interaction, 3D spatial reasoning, and real-world deployment. Although existing ground VLN agents achieved notable results in indoor and outdoor settings, they struggle in aerial VLN due to the absence of predefined navigation graphs and the exponentially expanding action space in long-horizon exploration. In this work, we propose \textbf{CityNavAgent}, a large language model (LLM)-empowered agent that significantly reduces the navigation complexity for urban aerial VLN. Specifically, we design a hierarchical semantic planning module (HSPM) that decomposes the long-horizon task into sub-goals with different semantic levels. The agent reaches the target progressively by achieving sub-goals with different capacities of the LLM. Additionally, a global memory module storing historical trajectories into a topological graph is developed to simplify navigation for visited targets. Extensive benchmark experiments show that our method achieves state-of-the-art performance with significant improvement. Further experiments demonstrate the effectiveness of different modules of CityNavAgent for aerial VLN in continuous city environments. The code is available at \href{https://github.com/VinceOuti/CityNavAgent}{link}.

CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理