REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

📄 arXiv: 2603.18624v1 📥 PDF

作者: Shuqi Xiao, Maani Ghaffari, Chengzhong Xu, Hui Kong

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-03-19


💡 一句话要点

提出REST框架,通过探索性Steiner树优化零样本物体目标导航中的路径规划。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本导航 物体目标导航 路径规划 Steiner树 大型语言模型

📋 核心要点

  1. 现有零样本物体目标导航方法忽略了路径规划中option的设计,导致次优的导航策略。
  2. REST框架通过构建探索性Steiner树来表示option空间,利用路径树结构进行高效的路径选择和LLM推理。
  3. 实验结果表明,REST在成功率和路径效率方面均表现出色,实现了良好的效率-成功平衡。

📝 摘要(中文)

零样本物体目标导航(ZSON)需要在未知的环境中导航,以找到目标物体,而无需特定任务的训练。现有的无训练分层解决方案侧重于场景理解(belief)和高层决策(policy),但忽略了option的设计,即从不断演进的belief中提出的子目标候选,并呈现给policy进行选择。实际上,options被简化为独立评分的孤立航点:单个目的地隐藏了沿途收集的价值;非结构化的集合模糊了候选者之间的关系。我们的见解是,option空间应该是一个路径树。完整的路径暴露了仅目的地评分系统性忽略的途中信息增益;共享片段的树使得能够进行由粗到精的LLM推理,在检查单个叶子之前驳回或追求整个分支,从而将组合路径空间压缩成一个高效的层次结构。我们在REST(Receding Horizon Explorative Steiner Tree)中实例化了这一见解,这是一个无需训练的框架,它(1)从在线RGB-D流构建显式的开放词汇3D地图;(2)通过基于采样的规划,构建以智能体为中心的、安全且信息丰富的路径树作为option空间;以及(3)将每个分支文本化为空间叙事,并通过思维链LLM推理选择下一个最佳路径。在Gibson、HM3D和HSSD基准测试中,REST在成功率方面始终名列前茅,同时实现了最佳或第二佳的路径效率,展示了良好的效率-成功平衡。

🔬 方法详解

问题定义:零样本物体目标导航(ZSON)任务需要在未知环境中找到目标物体,而无需针对特定环境或物体的训练。现有方法通常将路径规划简化为独立航点的选择,忽略了路径的整体信息增益以及候选路径之间的关系,导致导航效率低下。

核心思路:论文的核心思路是将option空间表示为一个路径树,即Receding Horizon Explorative Steiner Tree (REST)。通过构建路径树,可以显式地考虑路径的整体信息增益,并利用树的结构进行由粗到精的LLM推理,从而高效地选择最佳路径。

技术框架:REST框架包含三个主要模块:(1) 基于RGB-D流构建开放词汇3D地图;(2) 通过基于采样的规划,构建以智能体为中心的、安全且信息丰富的路径树作为option空间;(3) 将每个分支文本化为空间叙事,并通过思维链LLM推理选择下一个最佳路径。整体流程是,智能体在探索环境的同时构建地图,并利用地图信息生成路径树,然后使用LLM对路径树进行推理,选择最佳路径进行导航。

关键创新:REST框架的关键创新在于将option空间表示为一个路径树,并利用LLM进行路径选择。与现有方法相比,REST框架能够显式地考虑路径的整体信息增益,并利用树的结构进行高效的推理,从而提高导航效率。

关键设计:REST框架的关键设计包括:(1) 使用开放词汇3D地图来表示环境信息;(2) 使用基于采样的规划算法来生成路径树;(3) 使用思维链LLM推理来选择最佳路径。具体来说,路径树的构建过程中需要考虑路径的安全性(避免碰撞)和信息增益(探索未知区域),LLM推理过程中需要将路径信息转化为自然语言描述,并利用LLM的推理能力来评估路径的优劣。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REST框架在Gibson、HM3D和HSSD基准测试中,在成功率方面始终名列前茅,同时实现了最佳或第二佳的路径效率,展示了良好的效率-成功平衡。这意味着REST框架能够在保证导航成功率的同时,尽可能地减少导航所需的路径长度,从而提高导航效率。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在家庭服务机器人中,可以利用REST框架实现零样本物体目标导航,帮助机器人找到用户指定的物体。在自动驾驶领域,可以利用REST框架进行路径规划,提高自动驾驶车辆的导航效率和安全性。在虚拟现实领域,可以利用REST框架实现虚拟角色的自主导航,增强虚拟现实的沉浸感。

📄 摘要(原文)

Zero-shot object-goal navigation (ZSON) requires navigating unknown environments to find a target object without task-specific training. Prior hierarchical training-free solutions invest in scene understanding (\textit{belief}) and high-level decision-making (\textit{policy}), yet overlook the design of \textit{option}, i.e., a subgoal candidate proposed from evolving belief and presented to policy for selection. In practice, options are reduced to isolated waypoints scored independently: single destinations hide the value gathered along the journey; an unstructured collection obscures the relationships among candidates. Our insight is that the option space should be a \textit{tree of paths}. Full paths expose en-route information gain that destination-only scoring systematically neglects; a tree of shared segments enables coarse-to-fine LLM reasoning that dismisses or pursues entire branches before examining individual leaves, compressing the combinatorial path space into an efficient hierarchy. We instantiate this insight in \textbf{REST} (Receding Horizon Explorative Steiner Tree), a training-free framework that (1) builds an explicit open-vocabulary 3D map from online RGB-D streams; (2) grows an agent-centric tree of safe and informative paths as the option space via sampling-based planning; and (3) textualizes each branch into a spatial narrative and selects the next-best path through chain-of-thought LLM reasoning. Across the Gibson, HM3D, and HSSD benchmarks, REST consistently ranks among the top methods in success rate while achieving the best or second-best path efficiency, demonstrating a favorable efficiency-success balance.