R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

📄 arXiv: 2603.08475v1 📥 PDF

作者: Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani

分类: cs.RO, cs.AI

发布日期: 2026-03-09


💡 一句话要点

R2F:利用射线前沿重构,实现无LLM的物体导航

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物体导航 零样本学习 射线前沿 视觉语言模型 机器人 嵌入相似度 实时性

📋 核心要点

  1. 现有零样本物体导航方法依赖大型VLM/LLM,推理时迭代查询导致延迟和计算开销。
  2. 论文重构射线前沿(R2F),将前沿区域视为方向条件语义假设,引导无LLM的导航。
  3. 实验表明,该方法在Habitat-sim和真实机器人上实现了实时且具有竞争力的零样本性能。

📝 摘要(中文)

随着大型视觉-语言模型(VLM)和大型语言模型(LLM)的出现,零样本开放词汇物体导航取得了快速进展。这些模型现在被广泛用作高级决策者,而不是端到端策略。然而,这些系统通常依赖于推理时迭代的大型模型查询,从而引入了延迟和计算开销,限制了实时部署。为了解决这个问题,我们重新利用射线前沿(R2F),这是一种最近提出的基于前沿的探索范式,以开发一个用于室内开放词汇物体导航的无LLM框架。虽然射线前沿最初用于使用沿射线携带的语义线索来偏置探索,但我们将前沿区域重新解释为显式的、方向条件化的语义假设,作为导航目标。沿超出范围的射线累积的语言对齐特征稀疏地存储在前沿,其中每个区域维护多个方向嵌入,编码可信的未见内容。这样,导航就简化为基于嵌入的前沿评分和经典映射和规划管道中的目标跟踪,从而消除了迭代的大型模型推理。我们进一步引入了R2F-VLN,这是一种轻量级扩展,用于使用句法分析和关系验证的自由形式语言指令,而无需额外的VLM或LLM组件。在Habitat-sim和真实机器人平台上的实验表明,该方法具有竞争力的最先进的零样本性能,并具有实时执行能力,运行速度比基于VLM的替代方案快6倍。

🔬 方法详解

问题定义:论文旨在解决零样本开放词汇物体导航中,依赖大型视觉-语言模型(VLM)和大型语言模型(LLM)进行决策所带来的计算开销和延迟问题。现有方法需要迭代查询这些大型模型,限制了实时部署的可能性。

核心思路:论文的核心思路是重新利用射线前沿(Ray Frontiers, R2F)的概念,将前沿区域解释为显式的、方向条件化的语义假设。通过将语言对齐的特征存储在前沿区域,并使用嵌入相似度进行前沿评分,从而避免了在导航过程中对大型模型的迭代查询。

技术框架:整体框架包括以下几个主要模块:1) 使用射线前沿进行环境探索和地图构建;2) 将语言指令编码为嵌入向量;3) 将沿射线累积的视觉特征与语言嵌入对齐,并存储在前沿区域;4) 使用嵌入相似度对前沿区域进行评分,选择最佳导航目标;5) 使用经典映射和规划算法进行路径规划和目标跟踪。对于自由形式语言指令,引入R2F-VLN,利用句法分析和关系验证进行处理。

关键创新:最重要的技术创新点在于将射线前沿从单纯的探索偏置工具,转变为显式的语义假设载体。通过将语言信息编码并存储在前沿区域,实现了无LLM的导航决策。与现有方法的本质区别在于,避免了在导航过程中对大型模型的迭代查询,从而显著降低了计算开销和延迟。

关键设计:论文的关键设计包括:1) 如何有效地将视觉特征与语言嵌入对齐,并存储在前沿区域;2) 如何设计嵌入相似度度量,以准确评估前沿区域的语义相关性;3) 如何利用句法分析和关系验证处理自由形式语言指令。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述,但此处无法完全展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R2F方法在Habitat-sim和真实机器人平台上实现了具有竞争力的零样本性能,并且运行速度比基于VLM的替代方案快6倍。这表明该方法在保持导航性能的同时,显著降低了计算开销,实现了实时性。

🎯 应用场景

该研究成果可应用于室内服务机器人、智能家居、自动驾驶等领域。通过降低计算成本和延迟,使得机器人能够更快速、更高效地理解人类指令并在复杂环境中进行导航,具有广泛的应用前景和实际价值。未来可进一步扩展到更复杂的环境和任务中。

📄 摘要(原文)

Zero-shot open-vocabulary object navigation has progressed rapidly with the emergence of large Vision-Language Models (VLMs) and Large Language Models (LLMs), now widely used as high-level decision-makers instead of end-to-end policies. Although effective, such systems often rely on iterative large-model queries at inference time, introducing latency and computational overhead that limit real-time deployment. To address this problem, we repurpose ray frontiers (R2F), a recently proposed frontier-based exploration paradigm, to develop an LLM-free framework for indoor open-vocabulary object navigation. While ray frontiers were originally used to bias exploration using semantic cues carried along rays, we reinterpret frontier regions as explicit, direction-conditioned semantic hypotheses that serve as navigation goals. Language-aligned features accumulated along out-of-range rays are stored sparsely at frontiers, where each region maintains multiple directional embeddings encoding plausible unseen content. In this way, navigation then reduces to embedding-based frontier scoring and goal tracking within a classical mapping and planning pipeline, eliminating iterative large-model reasoning. We further introduce R2F-VLN, a lightweight extension for free-form language instructions using syntactic parsing and relational verification without additional VLM or LLM components. Experiments in Habitat-sim and on a real robotic platform demonstrate competitive state-of-the-art zero-shot performance with real-time execution, achieving up to 6 times faster runtime than VLM-based alternatives.