When Engineering Outruns Intelligence: Rethinking Instruction-Guided Navigation

作者: Matin Aghaei, Lingfeng Zhang, Mohammad Ali Alomrani, Mahdi Biparva, Yingxue Zhang

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-07-26 (更新: 2025-09-27)

备注: Preprint; under peer review

💡 一句话要点

重新审视指令引导导航：工程优化超越智能，几何先验更有效

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令引导导航 几何先验 大型语言模型 机器人导航 零样本学习

📋 核心要点

现有ObjectNav系统过度依赖LLM，忽略了几何信息在导航中的作用，导致效率和可解释性不足。
论文提出两种无需训练的导航变体，分别侧重几何信息和轻量级语义启发，以验证几何先验的重要性。
实验表明，精心设计的几何信息可以达到甚至超过现有方法的性能，语言模型作为启发式方法更有效。

📝 摘要（中文）

最近的ObjectNav系统将大型语言模型（LLMs）的显著零样本增益归功于语言能力，但尚不清楚有多少增益来自语言本身，又有多少来自几何信息。本文重新评估了指令引导的导航流程InstructNav，在检测器控制的环境下，引入了两种无需训练的变体，仅改变了动作价值图：一种是纯几何的前沿邻近探索器（FPE），另一种是轻量级的语义启发式前沿（SHF），它使用简单的前沿投票来查询LLM。在HM3D和MP3D数据集上，FPE在不使用API调用且运行速度更快的情况下，匹配甚至超过了检测器控制的指令跟随器；SHF以更小、更局部的语言先验获得了相当的准确性。这些结果表明，精心设计的几何前沿信息解释了大部分已报告的进展，并且语言作为一种轻量级启发式方法比作为端到端规划器更可靠。

🔬 方法详解

问题定义：现有指令引导导航系统过度依赖大型语言模型（LLMs）进行端到端规划，但忽略了几何信息在导航中的作用。这种过度依赖导致计算成本高昂，且难以解释模型行为。此外，现有方法可能无法充分利用环境中的几何约束，导致导航效率低下。

核心思路：论文的核心思路是重新评估几何信息在指令引导导航中的作用，并证明精心设计的几何先验可以显著提高导航性能，甚至超越依赖LLM的端到端方法。通过解耦语言和几何信息，可以更好地理解LLM在导航中的真正贡献。

技术框架：论文主要通过两种无需训练的变体来验证核心思路： 1. 前沿邻近探索器（FPE）：完全基于几何信息，通过计算当前位置到未探索区域（前沿）的距离来决定下一步行动。 2. 语义启发式前沿（SHF）：结合了轻量级的语义信息，通过LLM对前沿区域进行投票，选择最有可能包含目标对象的区域进行探索。

关键创新：论文的关键创新在于强调了几何信息在指令引导导航中的重要性，并提出了两种无需训练的导航变体，证明了精心设计的几何先验可以达到甚至超过现有方法的性能。此外，论文还提出了一种轻量级的语义启发式方法，可以有效地利用LLM的语义信息，而无需进行端到端训练。

关键设计： * FPE：通过计算当前位置到所有前沿区域的距离，选择距离最近的前沿区域作为目标，并采取相应的行动。 * SHF：首先识别所有前沿区域，然后使用LLM对每个前沿区域进行投票，判断其是否包含目标对象。选择投票数最高的前沿区域作为目标，并采取相应的行动。 * 两种方法均不涉及任何训练过程，参数设置相对简单，主要依赖于距离计算和LLM的投票结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，纯几何的FPE在HM3D和MP3D数据集上匹配甚至超过了检测器控制的指令跟随器，且无需API调用，运行速度更快。SHF以更小、更局部的语言先验获得了相当的准确性。这些结果表明，精心设计的几何前沿信息解释了大部分已报告的进展。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过更有效地利用几何信息，可以降低对大型语言模型的依赖，提高导航系统的效率和鲁棒性。未来的研究可以进一步探索如何将几何信息与语义信息更好地融合，以实现更智能、更可靠的导航系统。

📄 摘要（原文）

Recent ObjectNav systems credit large language models (LLMs) for sizable zero-shot gains, yet it remains unclear how much comes from language versus geometry. We revisit this question by re-evaluating an instruction-guided pipeline, InstructNav, under a detector-controlled setting and introducing two training-free variants that only alter the action value map: a geometry-only Frontier Proximity Explorer (FPE) and a lightweight Semantic-Heuristic Frontier (SHF) that polls the LLM with simple frontier votes. Across HM3D and MP3D, FPE matches or exceeds the detector-controlled instruction follower while using no API calls and running faster; SHF attains comparable accuracy with a smaller, localized language prior. These results suggest that carefully engineered frontier geometry accounts for much of the reported progress, and that language is most reliable as a light heuristic rather than an end-to-end planner.

When Engineering Outruns Intelligence: Rethinking Instruction-Guided Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理