REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

作者: Shuqi Xiao, Maani Ghaffari, Chengzhong Xu, Hui Kong

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-03-19

💡 一句话要点

提出REST框架，通过探索性Steiner树优化零样本物体目标导航中的路径规划。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本导航 物体目标导航 路径规划 Steiner树 大型语言模型

📋 核心要点

现有零样本物体目标导航方法忽略了路径规划中option的设计，导致次优的导航策略。
REST框架通过构建探索性Steiner树来表示option空间，利用路径树结构进行高效的路径选择和LLM推理。
实验结果表明，REST在成功率和路径效率方面均表现出色，实现了良好的效率-成功平衡。

📝 摘要（中文）

零样本物体目标导航(ZSON)需要在未知的环境中导航，以找到目标物体，而无需特定任务的训练。现有的无训练分层解决方案侧重于场景理解（belief）和高层决策（policy），但忽略了option的设计，即从不断演进的belief中提出的子目标候选，并呈现给policy进行选择。实际上，options被简化为独立评分的孤立航点：单个目的地隐藏了沿途收集的价值；非结构化的集合模糊了候选者之间的关系。我们的见解是，option空间应该是一个路径树。完整的路径暴露了仅目的地评分系统性忽略的途中信息增益；共享片段的树使得能够进行由粗到精的LLM推理，在检查单个叶子之前驳回或追求整个分支，从而将组合路径空间压缩成一个高效的层次结构。我们在REST（Receding Horizon Explorative Steiner Tree）中实例化了这一见解，这是一个无需训练的框架，它（1）从在线RGB-D流构建显式的开放词汇3D地图；（2）通过基于采样的规划，构建以智能体为中心的、安全且信息丰富的路径树作为option空间；以及（3）将每个分支文本化为空间叙事，并通过思维链LLM推理选择下一个最佳路径。在Gibson、HM3D和HSSD基准测试中，REST在成功率方面始终名列前茅，同时实现了最佳或第二佳的路径效率，展示了良好的效率-成功平衡。

🔬 方法详解

问题定义：零样本物体目标导航（ZSON）任务需要在未知环境中找到目标物体，而无需针对特定环境或物体的训练。现有方法通常将路径规划简化为独立航点的选择，忽略了路径的整体信息增益以及候选路径之间的关系，导致导航效率低下。

核心思路：论文的核心思路是将option空间表示为一个路径树，即Receding Horizon Explorative Steiner Tree (REST)。通过构建路径树，可以显式地考虑路径的整体信息增益，并利用树的结构进行由粗到精的LLM推理，从而高效地选择最佳路径。

技术框架：REST框架包含三个主要模块：(1) 基于RGB-D流构建开放词汇3D地图；(2) 通过基于采样的规划，构建以智能体为中心的、安全且信息丰富的路径树作为option空间；(3) 将每个分支文本化为空间叙事，并通过思维链LLM推理选择下一个最佳路径。整体流程是，智能体在探索环境的同时构建地图，并利用地图信息生成路径树，然后使用LLM对路径树进行推理，选择最佳路径进行导航。

关键创新：REST框架的关键创新在于将option空间表示为一个路径树，并利用LLM进行路径选择。与现有方法相比，REST框架能够显式地考虑路径的整体信息增益，并利用树的结构进行高效的推理，从而提高导航效率。

关键设计：REST框架的关键设计包括：(1) 使用开放词汇3D地图来表示环境信息；(2) 使用基于采样的规划算法来生成路径树；(3) 使用思维链LLM推理来选择最佳路径。具体来说，路径树的构建过程中需要考虑路径的安全性（避免碰撞）和信息增益（探索未知区域），LLM推理过程中需要将路径信息转化为自然语言描述，并利用LLM的推理能力来评估路径的优劣。

🖼️ 关键图片

📊 实验亮点

实验结果表明，REST框架在Gibson、HM3D和HSSD基准测试中，在成功率方面始终名列前茅，同时实现了最佳或第二佳的路径效率，展示了良好的效率-成功平衡。这意味着REST框架能够在保证导航成功率的同时，尽可能地减少导航所需的路径长度，从而提高导航效率。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如，在家庭服务机器人中，可以利用REST框架实现零样本物体目标导航，帮助机器人找到用户指定的物体。在自动驾驶领域，可以利用REST框架进行路径规划，提高自动驾驶车辆的导航效率和安全性。在虚拟现实领域，可以利用REST框架实现虚拟角色的自主导航，增强虚拟现实的沉浸感。

📄 摘要（原文）

Zero-shot object-goal navigation (ZSON) requires navigating unknown environments to find a target object without task-specific training. Prior hierarchical training-free solutions invest in scene understanding (\textit{belief}) and high-level decision-making (\textit{policy}), yet overlook the design of \textit{option}, i.e., a subgoal candidate proposed from evolving belief and presented to policy for selection. In practice, options are reduced to isolated waypoints scored independently: single destinations hide the value gathered along the journey; an unstructured collection obscures the relationships among candidates. Our insight is that the option space should be a \textit{tree of paths}. Full paths expose en-route information gain that destination-only scoring systematically neglects; a tree of shared segments enables coarse-to-fine LLM reasoning that dismisses or pursues entire branches before examining individual leaves, compressing the combinatorial path space into an efficient hierarchy. We instantiate this insight in \textbf{REST} (Receding Horizon Explorative Steiner Tree), a training-free framework that (1) builds an explicit open-vocabulary 3D map from online RGB-D streams; (2) grows an agent-centric tree of safe and informative paths as the option space via sampling-based planning; and (3) textualizes each branch into a spatial narrative and selects the next-best path through chain-of-thought LLM reasoning. Across the Gibson, HM3D, and HSSD benchmarks, REST consistently ranks among the top methods in success rate while achieving the best or second-best path efficiency, demonstrating a favorable efficiency-success balance.

REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理