EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval
作者: Zebin Yang, Sunjian Zheng, Tong Xie, Tianshi Xu, Bo Yu, Fan Wang, Jie Tang, Shaoshan Liu, Meng Li
分类: cs.RO, cs.AI
发布日期: 2025-10-21 (更新: 2025-11-27)
备注: NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
EfficientNav:面向端侧对象目标导航,通过导航地图缓存与检索实现高效LLM导航。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对象目标导航 端侧部署 小型LLM 导航地图缓存 语义感知检索
📋 核心要点
- 现有对象目标导航依赖大型云端LLM,小型LLM因能力不足导致成功率下降,且导航地图长提示造成高延迟。
- EfficientNav通过语义感知记忆检索精简地图信息,提升小型LLM理解能力;利用记忆缓存和聚类加速规划。
- 实验表明,EfficientNav在HM3D上成功率提升11.1%,实时延迟降低6.7倍,端到端延迟降低4.7倍。
📝 摘要(中文)
本文提出EfficientNav,旨在实现基于小型LLM的端侧高效零样本对象目标导航。现有方法依赖云端大型LLM(如GPT-4),而直接迁移到小型LLM(如LLaMA3.2-11b)会导致成功率显著下降,因为小型LLM理解复杂导航地图的能力有限,阻碍了对象目标导航在本地设备上的部署。同时,导航地图描述引入的长提示会导致本地设备上的高规划延迟。EfficientNav通过语义感知记忆检索来修剪导航地图中的冗余信息,帮助小型LLM更好地理解环境。此外,通过离散记忆缓存和基于注意力的记忆聚类来高效地保存和重用KV缓存,从而降低规划延迟。实验结果表明,EfficientNav在HM3D基准测试中,成功率比基于GPT-4的基线提高了11.1%,并实现了比GPT-4规划器快6.7倍的实时延迟降低和4.7倍的端到端延迟降低。
🔬 方法详解
问题定义:对象目标导航任务要求智能体导航到未见环境中特定对象的位置。现有方法依赖于大型语言模型(LLM)和在线构建的导航地图,但这些方法通常依赖于云端的大型LLM,例如GPT-4。直接使用小型LLM(如LLaMA3.2-11b)会导致成功率显著下降,因为它们理解复杂导航地图的能力有限。此外,导航地图描述引入的长提示会导致本地设备上的高规划延迟,限制了在资源受限设备上的应用。
核心思路:EfficientNav的核心思路是通过减少LLM需要处理的信息量和提高LLM处理信息的效率来解决上述问题。具体来说,它通过语义感知记忆检索来修剪导航地图中的冗余信息,从而帮助小型LLM更好地理解环境。同时,通过离散记忆缓存和基于注意力的记忆聚类来高效地保存和重用KV缓存,从而降低规划延迟。
技术框架:EfficientNav的整体框架包含以下几个主要模块:1) 导航地图构建:智能体在环境中探索并构建导航地图。2) 语义感知记忆检索:根据当前目标和环境语义,从导航地图中检索相关信息,去除冗余信息。3) LLM规划:使用小型LLM基于检索到的信息生成导航指令。4) 离散记忆缓存和注意力聚类:缓存LLM的KV缓存,并使用注意力机制对缓存进行聚类,以便后续快速检索和重用。5) 执行:智能体执行LLM生成的导航指令。
关键创新:EfficientNav的关键创新在于以下两点:1) 语义感知记忆检索:通过语义理解来选择性地保留导航地图中的关键信息,从而减少LLM需要处理的信息量。这与传统的地图简化方法不同,后者通常只是简单地减少地图的分辨率或删除某些节点。2) 离散记忆缓存和注意力聚类:通过缓存和聚类LLM的KV缓存,可以避免重复计算,从而显著降低规划延迟。这与传统的缓存方法不同,后者通常只是简单地缓存LLM的输出。
关键设计:在语义感知记忆检索中,使用了预训练的语义分割模型来识别环境中的对象,并根据对象与目标的关联性来决定是否保留该信息。在离散记忆缓存和注意力聚类中,使用了基于Transformer的注意力机制来对KV缓存进行聚类,并使用聚类中心作为缓存的索引。具体参数设置和损失函数细节未在摘要中提及,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
EfficientNav在HM3D基准测试中取得了显著的性能提升。与基于GPT-4的基线相比,EfficientNav的成功率提高了11.1%,同时实现了6.7倍的实时延迟降低和4.7倍的端到端延迟降低。这些结果表明,EfficientNav能够有效地提高对象目标导航的效率和性能。
🎯 应用场景
EfficientNav具有广泛的应用前景,可用于家庭服务机器人、无人机、自动驾驶等领域。通过在本地设备上实现高效的对象目标导航,可以提高机器人的自主性和智能化水平,使其能够在复杂环境中更好地完成任务。此外,该研究还可以促进小型LLM在嵌入式设备上的应用,降低对云端资源的依赖。
📄 摘要(原文)
Object-goal navigation (ObjNav) tasks an agent with navigating to the location of a specific object in an unseen environment. Embodied agents equipped with large language models (LLMs) and online constructed navigation maps can perform ObjNav in a zero-shot manner. However, existing agents heavily rely on giant LLMs on the cloud, e.g., GPT-4, while directly switching to small LLMs, e.g., LLaMA3.2-11b, suffer from significant success rate drops due to limited model capacity for understanding complex navigation maps, which prevents deploying ObjNav on local devices. At the same time, the long prompt introduced by the navigation map description will cause high planning latency on local devices. In this paper, we propose EfficientNav to enable on-device efficient LLM-based zero-shot ObjNav. To help the smaller LLMs better understand the environment, we propose semantics-aware memory retrieval to prune redundant information in navigation maps. To reduce planning latency, we propose discrete memory caching and attention-based memory clustering to efficiently save and re-use the KV cache. Extensive experimental results demonstrate that EfficientNav achieves 11.1% improvement in success rate on HM3D benchmark over GPT-4-based baselines, and demonstrates 6.7x real-time latency reduction and 4.7x end-to-end latency reduction over GPT-4 planner. Our code is available on https://github.com/PKU-SEC-Lab/EfficientNav.