IGV-RRT: Prior-Real-Time Observation Fusion for Active Object Search in Changing Environments

📄 arXiv: 2603.21887v1 📥 PDF

作者: Wei Zhang, Ping Gong, Yujie Wang, Minghui Bai, Rongfeng Ye, Yinchuan Wang, Yachao Wang, Leilei Yao, Teng Chen, Chen Sun, Chaoqun Wang

分类: cs.RO

发布日期: 2026-03-23


💡 一句话要点

提出IGV-RRT,融合先验知识与实时观测,解决动态环境中主动目标搜索问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 目标导向导航 主动目标搜索 视觉语言模型 概率规划 动态环境

📋 核心要点

  1. 现有ObjectNav方法在物体重定位的动态环境中表现不佳,历史场景知识失效是主要挑战。
  2. 提出IGV-RRT框架,融合场景先验知识和视觉语言模型(VLM)的实时观测,指导智能体搜索目标。
  3. 实验结果表明,该方法能有效应对物体重定位带来的影响,提升搜索效率和成功率。

📝 摘要(中文)

本文提出了一种概率规划框架,用于解决时变室内环境中的目标导向导航(ObjectNav)问题,该问题因物体重定位导致历史场景知识失效而具有挑战性。该框架结合了不确定性感知的场景先验知识和从视觉语言模型(VLM)导出的在线目标相关性估计。框架包含一个双层语义地图模块和一个实时规划器。映射模块包含一个信息增益图(IGM),该图在先验探索期间从3D场景图(3DSG)构建,用于建模对象共现关系并提供关于可能目标区域的全局指导。它还维护一个VLM分数图(VLM-SM),该图将置信度加权的语义观测融合到地图中,用于局部验证当前场景。基于这两个线索,我们开发了一个规划器,该规划器共同利用信息增益和语义证据进行在线决策。规划器将树扩展偏向于具有高先验可能性和强在线相关性的语义显著区域(IGV-RRT),同时通过基于梯度的分析保持运动学可行性。仿真和真实世界的实验表明,所提出的方法有效地减轻了物体重新排列的影响,在复杂的室内环境中实现了比代表性基线更高的搜索效率和成功率。

🔬 方法详解

问题定义:论文旨在解决动态室内环境中,由于物体位置变化导致传统ObjectNav方法失效的问题。现有方法依赖于静态环境假设,无法有效利用历史信息,导致搜索效率降低甚至失败。

核心思路:核心思路是将先验知识(通过探索学习到的物体共现关系)与实时观测(通过VLM获得的语义信息)相结合,指导智能体的探索行为。通过融合全局的先验信息和局部的实时信息,提高智能体在动态环境中的搜索效率和鲁棒性。

技术框架:整体框架包含双层语义地图模块和实时规划器。双层语义地图模块由信息增益图(IGM)和VLM分数图(VLM-SM)组成。IGM基于3D场景图构建,用于建模物体共现关系,提供全局指导。VLM-SM融合置信度加权的语义观测,用于局部验证当前场景。实时规划器基于IGM和VLM-SM的信息,利用IGV-RRT算法进行路径规划,引导智能体探索语义显著区域。

关键创新:关键创新在于融合了先验知识和实时观测的双层语义地图,以及基于该地图的IGV-RRT规划算法。IGV-RRT算法能够根据信息增益和语义证据,自适应地调整搜索方向,提高搜索效率。与传统RRT算法相比,IGV-RRT能够更有效地利用语义信息,避免盲目探索。

关键设计:IGM的构建依赖于先验探索阶段获得的3D场景图,通过统计物体之间的共现频率来建模物体关系。VLM-SM的构建依赖于VLM提供的语义信息,通过置信度加权的方式融合到地图中。IGV-RRT算法的关键在于信息增益和语义证据的权重设置,需要根据具体环境进行调整。梯度分析用于保证运动学可行性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的IGV-RRT方法在动态室内环境中显著提高了目标搜索的效率和成功率。与代表性基线方法相比,IGV-RRT能够更有效地应对物体重定位带来的影响,在复杂的室内环境中取得了更好的性能。具体性能数据未知。

🎯 应用场景

该研究成果可应用于家庭服务机器人、仓储物流机器人等领域,提升机器人在动态、非结构化环境中自主导航和目标搜索的能力。通过融合先验知识和实时感知,机器人可以更有效地适应环境变化,完成复杂任务,具有重要的实际应用价值。

📄 摘要(原文)

Object Goal Navigation (ObjectNav) in temporally changing indoor environments is challenging because object relocation can invalidate historical scene knowledge. To address this issue, we propose a probabilistic planning framework that combines uncertainty-aware scene priors with online target relevance estimates derived from a Vision Language Model (VLM). The framework contains a dual-layer semantic mapping module and a real-time planner. The mapping module includes an Information Gain Map (IGM) built from a 3D scene graph (3DSG) during prior exploration to model object co-occurrence relations and provide global guidance on likely target regions. It also maintains a VLM score map (VLM-SM) that fuses confidence-weighted semantic observations into the map for local validation of the current scene. Based on these two cues, we develop a planner that jointly exploits information gain and semantic evidence for online decision making. The planner biases tree expansion toward semantically salient regions with high prior likelihood and strong online relevance (IGV-RRT), while preserving kinematic feasibility through gradient-based analysis. Simulation and real-world experiments demonstrate that the proposed method effectively mitigates the impact of object rearrangement, achieving higher search efficiency and success rates than representative baselines in complex indoor environments.