POMDP-based Object Search with Growing State Space and Hybrid Action Domain

📄 arXiv: 2604.14965v1 📥 PDF

作者: Yongbo Chen, Hesheng Wang, Shoudong Huang, Hanna Kurniawati

分类: cs.RO

发布日期: 2026-04-16


💡 一句话要点

提出GNPF-kCT算法,解决复杂环境下移动机器人基于POMDP的目标搜索问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: POMDP 目标搜索 移动机器人 蒙特卡洛树搜索 神经过程 k中心聚类

📋 核心要点

  1. 现有方法难以应对室内目标搜索中定位误差、视野限制和视觉遮挡等问题。
  2. 提出GNPF-kCT算法,利用神经过程过滤和k中心聚类优化POMDP求解过程。
  3. Gazebo仿真和真实环境测试表明,该方法优于现有POMDP和LLM方法。

📝 摘要(中文)

本文针对复杂室内环境中移动机器人目标搜索的挑战,该挑战源于定位误差、有限视野和视觉遮挡等因素。我们将目标搜索任务建模为高维部分可观测马尔可夫决策过程(POMDP),其状态空间不断增长,且在3D环境中具有混合(连续和离散)动作空间。基于精心设计的感知模块,提出了一种名为增长神经过程过滤k中心聚类树(GNPF-kCT)的新型在线POMDP求解器来解决这个问题。利用蒙特卡洛树搜索(MCTS)选择最优动作,其中MCTS采用信念树重用以适应增长的状态空间,使用神经过程网络过滤无用的原始动作,并使用k中心聚类超球面离散化来有效优化高维动作空间。一种改进的上限置信度(UCB),通过估计直径内的信念差异和动作价值函数来指导MCTS扩展。理论分析验证了我们方法的收敛性和性能潜力。为了解决信息或奖励有限的情况,我们还引入了一个猜测目标对象与网格世界模型作为提高搜索效率的关键策略。在Gazebo中对Fetch和Stretch机器人进行的大量仿真表明,在相同的计算约束和感知系统下,我们的目标定位比基于POMDP的基线和最先进的(SOTA)非POMDP求解器(特别是基于大型语言模型(LLM)的方法)更快、更可靠。在办公环境中的真实测试证实了我们方法的实际适用性。

🔬 方法详解

问题定义:论文旨在解决复杂室内环境下移动机器人高效搜索目标对象的问题。现有方法在处理高维状态空间、混合动作空间以及部分可观测性方面存在挑战,尤其是在定位误差、视野限制和视觉遮挡的情况下,搜索效率和可靠性难以保证。

核心思路:论文的核心思路是将目标搜索问题建模为POMDP,并设计一种在线求解器GNPF-kCT来应对高维状态空间和混合动作空间的挑战。通过神经过程网络过滤无用动作,并使用k中心聚类离散化动作空间,从而提高搜索效率。同时,利用信念树重用和改进的UCB策略来加速MCTS的扩展。

技术框架:GNPF-kCT算法的整体框架包括以下几个主要模块:1) 感知模块:用于获取环境信息和目标对象的观测;2) POMDP建模:将目标搜索问题建模为具有增长状态空间和混合动作空间的POMDP;3) 神经过程网络:用于过滤无用的原始动作,减少搜索空间;4) k中心聚类:用于离散化高维动作空间,简化动作选择;5) MCTS:利用蒙特卡洛树搜索选择最优动作,并结合信念树重用和改进的UCB策略进行扩展。

关键创新:该论文的关键创新在于提出了GNPF-kCT算法,该算法结合了神经过程网络、k中心聚类和MCTS,能够有效地解决高维POMDP问题。与现有方法相比,GNPF-kCT算法能够更好地处理增长的状态空间和混合动作空间,从而提高目标搜索的效率和可靠性。此外,论文还提出了一个猜测目标对象与网格世界模型,以应对信息或奖励有限的情况。

关键设计:GNPF-kCT算法的关键设计包括:1) 使用神经过程网络学习动作的价值函数,并根据价值函数过滤无用动作;2) 使用k中心聚类将连续动作空间离散化为有限个超球面,从而简化动作选择;3) 设计了一种改进的UCB策略,该策略考虑了信念差异和动作价值函数,从而更有效地指导MCTS的扩展;4) 采用信念树重用策略,避免重复搜索相同的状态空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Gazebo仿真中,GNPF-kCT算法在目标定位方面优于基于POMDP的基线和SOTA非POMDP求解器(包括基于LLM的方法)。实验结果表明,在相同的计算约束和感知系统下,GNPF-kCT算法能够更快、更可靠地定位目标对象。此外,在办公环境中的真实测试也验证了该方法的实际适用性。

🎯 应用场景

该研究成果可应用于家庭服务机器人、仓储物流机器人、安防巡逻机器人等领域,帮助机器人在复杂环境中高效、可靠地搜索目标对象。通过提升机器人自主搜索能力,可以减少人工干预,提高工作效率,降低运营成本,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

Efficiently locating target objects in complex indoor environments with diverse furniture, such as shelves, tables, and beds, is a significant challenge for mobile robots. This difficulty arises from factors like localization errors, limited fields of view, and visual occlusion. We address this by framing the object-search task as a highdimensional Partially Observable Markov Decision Process (POMDP) with a growing state space and hybrid (continuous and discrete) action spaces in 3D environments. Based on a meticulously designed perception module, a novel online POMDP solver named the growing neural process filtered k-center clustering tree (GNPF-kCT) is proposed to tackle this problem. Optimal actions are selected using Monte Carlo Tree Search (MCTS) with belief tree reuse for growing state space, a neural process network to filter useless primitive actions, and k-center clustering hypersphere discretization for efficient refinement of high-dimensional action spaces. A modified upper-confidence bound (UCB), informed by belief differences and action value functions within cells of estimated diameters, guides MCTS expansion. Theoretical analysis validates the convergence and performance potential of our method. To address scenarios with limited information or rewards, we also introduce a guessed target object with a grid-world model as a key strategy to enhance search efficiency. Extensive Gazebo simulations with Fetch and Stretch robots demonstrate faster and more reliable target localization than POMDP-based baselines and state-of-the-art (SOTA) non-POMDP-based solvers, especially large language model (LLM) based methods, in object search under the same computational constraints and perception systems. Real-world tests in office environments confirm the practical applicability of our approach. Project page: https://sites.google.com/view/gnpfkct.