ConsistNav: Closing the Action Consistency Gap in Zero-Shot Object Navigation with Semantic Executive Control

📄 arXiv: 2605.09869v1 📥 PDF

作者: Haosen Wang, Zhenyang Li, Yinqiang Zhang, Zongqi He, Lutao Jiang, Kai Li, Yizhou Zhao, Liaoyuan Fan, Wenjian Hou, Tingbang Liang, Yibin Wen, Defeng Gu

分类: cs.RO, cs.CV

发布日期: 2026-05-11

备注: 13 pages, 5 figures


💡 一句话要点

提出ConsistNav框架,通过语义执行控制解决零样本物体导航中的动作一致性鸿沟问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 零样本学习 物体导航 语义执行控制 机器人导航 多模态感知 动作一致性

📋 核心要点

  1. 核心问题:现有方法在导航过程中对语义证据解读不一致,导致智能体在探索与追踪间反复震荡,或在目标附近因缺乏持久承诺而放弃任务。
  2. 方法要点:提出ConsistNav框架,通过有限状态执行控制器、持久候选记忆和稳定性感知动作控制,实现对导航决策的语义级执行干预。
  3. 实验效果:在HM3D和MP3D数据集上实现SOTA性能,相比基线方法在MP3D上的成功率(SR)提升11.4%,路径长度加权成功率(SPL)提升7.9%。

📝 摘要(中文)

零样本物体导航在开放词汇检测器、图文模型和语言引导探索方面取得了显著进展。然而,即便现有方法能检测到合理的潜在目标,智能体仍可能在探索与追踪之间摇摆,或在接近成功时放弃目标。我们将此失效模式定义为“动作一致性鸿沟”:语义证据在每一步被重复解读,缺乏跨片段的持续承诺。为此,我们提出了ConsistNav,一个无需训练的零样本ObjectNav框架。它由三个协调模块组成:有限状态执行控制器通过受控的语义阶段规划目标追踪;持久候选记忆将跨帧目标证据累积为稳定的物体假设;稳定性感知动作控制则抑制旋转停滞、无效追踪和未经验证的停止行为。该设计无需修改检测器或底层规划器,而是通过控制语义证据的介入时机来优化导航策略。在HM3D和MP3D上的实验表明,ConsistNav达到了零样本ObjectNav的最优水平,在MP3D上较基线SR提升11.4%,SPL提升7.9%。

🔬 方法详解

问题定义:论文旨在解决零样本物体导航(Zero-Shot ObjectNav)中的“动作一致性鸿沟”问题。现有方法往往在每一帧独立处理语义信息,导致智能体在目标追踪过程中表现出不稳定的行为,如在接近目标时因检测波动而放弃,或在原地无效旋转。

核心思路:核心思想是引入一个“语义执行器”作为高层决策层,不改变底层的检测器或规划器,而是通过显式的状态管理和记忆机制,强制智能体在导航过程中保持对目标的持续承诺,从而平滑动作序列。

技术框架:系统包含三个核心模块:1. 有限状态执行控制器(Finite-State Executive Controller),将导航过程划分为不同的语义阶段(如搜索、追踪、确认);2. 持久候选记忆(Persistent Candidate Memory),负责跨帧聚合视觉语义证据,形成稳定的物体空间假设;3. 稳定性感知动作控制(Stability-Aware Action Control),通过监控动作历史,抑制无效的旋转和过早的停止行为。

关键创新:最重要的创新在于将导航视为一个受控的语义执行过程,而非简单的反应式策略。通过引入“语义承诺”机制,使得智能体能够区分何时应信任当前的语义证据,何时应忽略噪声,从而在不进行额外训练的情况下显著提升鲁棒性。

关键设计:该方法采用无需训练(Training-free)的架构,通过逻辑门控机制控制语义证据的输入流。关键参数包括对目标置信度的阈值设定以及状态转换的逻辑规则,这些设计确保了系统在复杂室内环境下的决策稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConsistNav在HM3D和MP3D基准测试中表现卓越。实验结果显示,该方法在MP3D数据集上将成功率(SR)提升了11.4%,路径长度加权成功率(SPL)提升了7.9%。消融实验证明了持久记忆与稳定性控制模块对减少无效动作的显著贡献,且在真实环境部署中展现了极强的鲁棒性。

🎯 应用场景

该研究主要应用于家庭服务机器人、仓储物流机器人等自主移动平台。通过提升机器人在复杂、未知室内环境中的目标寻找能力,该技术可显著增强机器人在送货、巡检及辅助生活场景中的任务成功率与执行效率,具有极高的实际部署价值。

📄 摘要(原文)

Zero-shot object navigation has advanced rapidly with open-vocabulary detectors, image--text models, and language-guided exploration. However, even after current methods detect a plausible target hypothesis, the agent may still oscillate between exploration and pursuit, or abandon the object near success. We identify this failure mode as an action consistency gap: semantic evidence is repeatedly reinterpreted at each step without persistent commitment across the episode. We introduce ConsistNav, a training-free zero-shot ObjectNav framework built around a semantic executive composed of three coordinated modules: Finite-State Executive Controller stages target pursuit through guarded semantic phases; Persistent Candidate Memory accumulates cross-frame target evidence into stable object hypotheses; and Stability-Aware Action Control suppresses rotational stagnation, ineffective pursuit, and unverified stopping. This design changes neither the detector nor the low-level planner; instead, it controls when semantic evidence should influence navigation and when it should be suppressed or revisited. We conduct extensive experiments on HM3D and MP3D, where ConsistNav achieves state-of-the-art results among compared zero-shot ObjectNav methods and improves SR by 11.4% and SPL by 7.9% over the controlled baseline on MP3D. Ablation studies and real-world deployment experiments further demonstrate the effectiveness and robustness of the proposed executive mechanism.