DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation

📄 arXiv: 2505.21969v4 📥 PDF

作者: Tianjun Gu, Linfeng Li, Xuhong Wang, Chenghua Gong, Jingyu Gong, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan

分类: cs.RO, cs.AI

发布日期: 2025-05-28 (更新: 2025-09-25)


💡 一句话要点

DORAEMON:面向家庭服务机器人的去中心化、本体感知、可靠增强记忆导航Agent

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 自主导航 视觉语言模型 零样本学习 家庭服务机器人 认知导航

📋 核心要点

  1. 现有基于VLM的零样本导航方法在陌生环境中存在时空不连续、记忆表示非结构化以及任务理解不足等问题,导致导航失败。
  2. DORAEMON框架模仿人类认知导航机制,通过背侧通路处理时空不连续性,腹侧通路提升决策能力,并引入Nav-Ensurance保证导航安全。
  3. 实验结果表明,DORAEMON在多个数据集上显著优于现有方法,并在成功率和路径长度加权成功率等指标上取得了最先进的性能。

📝 摘要(中文)

本文提出DORAEMON,一个受认知启发的框架,用于解决家庭服务机器人中在陌生环境中自适应导航的挑战。现有基于视觉-语言模型(VLM)的零样本方法虽然减少了对先验地图和特定场景训练数据的依赖,但存在时空不连续性、非结构化记忆表示以及任务理解不足等问题。DORAEMON包含腹侧和背侧通路,模仿人类导航能力。背侧通路实现分层语义-空间融合和拓扑地图以处理时空不连续性,腹侧通路结合RAG-VLM和Policy-VLM以改进决策。此外,还开发了Nav-Ensurance以确保导航安全和效率。在HM3D、MP3D和GOAT数据集上的评估表明,DORAEMON在成功率(SR)和路径长度加权成功率(SPL)指标上均达到了最先进的性能,显著优于现有方法。同时,引入了一种新的评估指标(AORI)以更好地评估导航智能。实验结果证明了DORAEMON在无需先验地图构建或预训练的情况下进行零样本自主导航的有效性。

🔬 方法详解

问题定义:论文旨在解决家庭服务机器人在陌生环境中进行自适应导航的问题。现有基于视觉-语言模型(VLM)的零样本导航方法虽然避免了对先验地图的依赖,但由于离散的观测导致时空不连续,记忆表示缺乏结构化,以及对任务理解不足,导致导航效果不佳。这些问题限制了机器人在真实家庭环境中的应用。

核心思路:DORAEMON的核心思路是模仿人类的认知导航机制,将导航过程分解为两个互补的通路:背侧通路和腹侧通路。背侧通路负责构建环境的拓扑地图和进行空间推理,以克服时空不连续性;腹侧通路则负责理解任务指令和进行决策。通过结合这两个通路,DORAEMON能够更有效地进行导航。

技术框架:DORAEMON框架包含以下主要模块: 1. 背侧通路:包含分层语义-空间融合模块和拓扑地图构建模块,用于处理时空不连续性,构建环境的拓扑表示。 2. 腹侧通路:包含RAG-VLM(Retrieval-Augmented Generation VLM)和Policy-VLM,用于理解任务指令和进行决策。 3. Nav-Ensurance:用于确保导航的安全性和效率,避免碰撞和死锁。

关键创新:DORAEMON的关键创新在于其认知启发的设计,通过模仿人类的腹侧和背侧通路,实现了更鲁棒和高效的导航。与现有方法相比,DORAEMON能够更好地处理时空不连续性,并具有更强的任务理解能力。此外,Nav-Ensurance模块的引入进一步提高了导航的可靠性。

关键设计: * 分层语义-空间融合:通过多层级的语义信息和空间信息融合,提高环境理解的准确性。 * 拓扑地图:使用拓扑地图表示环境,降低了对精确地图的依赖。 * RAG-VLM和Policy-VLM:结合检索增强生成和策略学习,提高任务理解和决策能力。 * Nav-Ensurance:通过规则和策略相结合的方式,确保导航安全和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DORAEMON在HM3D、MP3D和GOAT数据集上进行了评估,实验结果表明,DORAEMON在成功率(SR)和路径长度加权成功率(SPL)指标上均达到了最先进的性能,显著优于现有方法。例如,在GOAT数据集上,DORAEMON的SR和SPL分别提升了X%和Y%(具体数值论文中给出)。此外,论文还引入了一种新的评估指标(AORI)以更好地评估导航智能。

🎯 应用场景

DORAEMON框架具有广泛的应用前景,可应用于家庭服务机器人、仓储物流机器人、以及其他需要在未知环境中进行自主导航的场景。该研究成果有助于提升机器人在复杂环境中的适应性和智能化水平,促进机器人技术的实际应用和普及。未来,该技术还可扩展到虚拟现实、增强现实等领域,为用户提供更智能化的交互体验。

📄 摘要(原文)

Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON's effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.