SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation

📄 arXiv: 2603.06914v1 📥 PDF

作者: Haokun Zhu, Zongtai Li, Zihan Liu, Kevin Guo, Zhengzhi Lin, Yuxin Cai, Guofei Chen, Chen Lv, Wenshan Wang, Jean Oh, Ji Zhang

分类: cs.RO

发布日期: 2026-03-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SysNav:多层系统化协同实现真实场景下跨形态的物体导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物体导航 视觉-语言模型 机器人导航 分层规划 跨形态机器人

📋 核心要点

  1. 真实场景物体导航面临复杂空间、长时程规划和语义理解等多重挑战,现有方法难以有效集成视觉-语言模型。
  2. SysNav通过三层系统解耦语义推理、导航规划和运动控制,利用视觉-语言模型进行语义引导,提升鲁棒性和泛化性。
  3. SysNav在三种机器人形态上进行了190次真实世界实验,显著提高了成功率和导航效率,并在模拟环境中达到SOTA。

📝 摘要(中文)

真实环境中的物体导航(ObjectNav)是一个复杂的问题,需要同时应对多个挑战,包括复杂的空间结构、长时程规划和语义理解。视觉-语言模型(VLMs)的最新进展为语义理解提供了有希望的能力,但将它们有效地集成到真实导航系统中仍然是一个重要的挑战。本文将真实世界的ObjectNav定义为一个系统级问题,并提出了SysNav,一个为真实世界跨形态部署而设计的三层ObjectNav系统。SysNav解耦了语义推理、导航规划和运动控制,以确保鲁棒性和泛化性。在高层,我们将环境总结为结构化的场景表示,并利用VLM提供基于语义的导航指导。在中层,我们引入了一种分层的基于房间的导航策略,该策略保留VLM指导用于房间级别的决策,从而有效地利用其推理能力,同时确保系统效率。在低层,计划的航点通过不同的特定于形态的运动控制模块来执行。我们将我们的系统部署在三种形态上,一个定制的轮式机器人,Unitree Go2四足机器人和Unitree G1人形机器人,并进行了190次真实世界的实验。我们的系统在成功率和导航效率方面都取得了显著的提高。据我们所知,SysNav是第一个能够可靠且高效地在复杂的真实环境中完成建筑规模的长距离物体导航的系统。此外,在四个模拟基准上的大量实验证明了最先进的性能。项目页面可在https://cmu-vln.github.io/上找到。

🔬 方法详解

问题定义:真实世界物体导航任务需要智能体在复杂环境中找到指定物体。现有方法通常难以有效整合视觉-语言模型进行语义理解,并且在长距离导航中效率和鲁棒性不足,难以适应不同机器人形态。

核心思路:SysNav的核心在于将物体导航问题分解为三个层次:高层语义推理、中层导航规划和低层运动控制。通过分层解耦,可以更好地利用视觉-语言模型的语义理解能力,同时保证导航效率和跨形态的适应性。

技术框架:SysNav系统包含三个主要层级: 1. 高层语义推理:将环境抽象为结构化场景表示,利用视觉-语言模型提供语义引导,确定房间级别的导航目标。 2. 中层导航规划:采用分层房间导航策略,仅在房间级别决策时使用视觉-语言模型,平衡推理能力和系统效率。 3. 低层运动控制:根据不同机器人形态,设计特定的运动控制模块,执行规划的航点。

关键创新:SysNav的关键创新在于其系统化的分层架构,能够有效整合视觉-语言模型的语义理解能力,并将其应用于真实世界的长距离物体导航。通过解耦语义推理、导航规划和运动控制,实现了更好的鲁棒性和跨形态适应性。

关键设计: * 高层语义推理:使用视觉-语言模型对场景进行语义理解,提取关键信息用于导航决策。 * 中层导航规划:设计分层房间导航策略,平衡计算复杂度和导航效率。 * 低层运动控制:针对不同机器人形态,设计相应的运动控制算法,保证航点执行的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SysNav在真实世界实验中取得了显著的性能提升。在三种机器人形态上进行了190次实验,成功率和导航效率均得到大幅提高。此外,在四个模拟基准测试中,SysNav也达到了最先进的水平,证明了其在复杂环境下的优越性能。

🎯 应用场景

SysNav在机器人导航领域具有广泛的应用前景,可用于家庭服务机器人、物流机器人、巡检机器人等,使其能够在复杂环境中自主导航并完成指定任务。该研究有助于提升机器人的智能化水平,使其更好地服务于人类生活和工作。

📄 摘要(原文)

Object navigation (ObjectNav) in real-world environments is a complex problem that requires simultaneously addressing multiple challenges, including complex spatial structure, long-horizon planning and semantic understanding. Recent advances in Vision-Language Models (VLMs) offer promising capabilities for semantic understanding, yet effectively integrating them into real-world navigation systems remains a non-trivial challenge. In this work, we formulate real-world ObjectNav as a system-level problem and introduce SysNav, a three-level ObjectNav system designed for real-world crossembodiment deployment. SysNav decouples semantic reasoning, navigation planning and motion control to ensure robustness and generalizability. At the high-level, we summarize the environment into a structured scene representation and leverage VLMs to provide semantic-grounded navigation guidance. At the mid-level, we introduce a hierarchical room-based navigation strategy that reserves VLM guidance for room-level decisions, which effectively utilizes its reasoning ability while ensuring system efficiency. At the low-level, planned waypoints are executed through different embodiment-specific motion control modules. We deploy our system on three embodiments, a custom-built wheeled robot, the Unitree Go2 quadruped and the Unitree G1 humanoid, and conduct 190 real-world experiments. Our system achieves substantial improvements in both success rate and navigation efficiency. To the best of our knowledge, SysNav is the first system capable of reliably and efficiently completing building-scale long-range object navigation in complex real-world environments. Furthermore, extensive experiments on four simulation benchmarks demonstrate state-of-the-art performance. Project page is available at: https://cmu-vln.github.io/.