Integrating Deep RL and Bayesian Inference for ObjectNav in Mobile Robotics

📄 arXiv: 2603.25366v1 📥 PDF

作者: João Castelo-Branco, José Santos-Victor, Alexandre Bernardino

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-03-26

备注: Accepted and to be published in the ICARSC 2026 26th IEEE International Conference on Autonomous Robot Systems and Competitions


💡 一句话要点

融合深度强化学习与贝叶斯推理,提升移动机器人ObjectNav性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 移动机器人 对象导航 深度强化学习 贝叶斯推理 概率地图

📋 核心要点

  1. 现有方法在移动机器人对象搜索中,要么依赖手工设计的启发式策略,要么面临深度强化学习收敛慢和可解释性差的问题。
  2. 本文提出一种融合贝叶斯推理和深度强化学习的混合框架,利用贝叶斯推理更新目标位置的概率地图,并用强化学习策略学习导航动作。
  3. 在Habitat 3.0模拟环境中,该方法在成功率和搜索效率上均优于基线策略,验证了结合贝叶斯估计和学习动作选择的有效性。

📝 摘要(中文)

本文提出了一种混合对象搜索框架,该框架集成了贝叶斯推理和深度强化学习,旨在解决移动机器人在室内环境中进行自主对象搜索时面临的挑战,如部分可观测性、感知不确定性以及探索与导航效率之间的权衡。该方法维护一个关于目标位置的空间置信度地图,通过贝叶斯推理在线更新,并利用校准后的对象检测结果。同时,训练一个强化学习策略,直接从概率表示中选择导航动作。在Habitat 3.0的真实室内模拟环境中,该方法与已开发的基线策略进行了比较。结果表明,在两个室内环境中,所提出的方法提高了成功率,同时减少了搜索工作量。总而言之,结果支持了结合贝叶斯置信度估计和学习动作选择的价值,从而在部分可观测性下实现更高效和可靠的对象搜索行为。

🔬 方法详解

问题定义:移动机器人在室内环境中进行自主对象搜索,面临部分可观测性、感知不确定性以及探索与导航效率之间的权衡。传统概率方法虽然能显式表示不确定性,但依赖手工设计的动作选择策略。深度强化学习虽然能学习自适应策略,但收敛速度慢,可解释性差。

核心思路:将贝叶斯推理和深度强化学习相结合。贝叶斯推理用于维护和更新目标位置的概率置信度地图,从而处理感知不确定性。深度强化学习则用于学习从该概率地图中选择最优导航动作的策略,从而实现高效的探索和导航。这样既能利用概率方法的显式不确定性表示,又能发挥强化学习的自适应策略学习能力。

技术框架:整体框架包含两个主要模块:1) 贝叶斯置信度地图更新模块:该模块接收来自传感器(例如,摄像头)的对象检测结果,并使用贝叶斯滤波更新关于目标对象位置的概率置信度地图。2) 深度强化学习策略模块:该模块以置信度地图作为输入,通过深度神经网络学习一个策略,该策略输出机器人的导航动作。整个流程是循环迭代的,机器人根据当前置信度地图选择动作,执行动作后获得新的观测,然后更新置信度地图,再次选择动作,直到找到目标对象或达到最大搜索步数。

关键创新:将贝叶斯推理和深度强化学习有机结合,利用贝叶斯推理处理感知不确定性,并为强化学习提供更有效的状态表示。与纯粹的强化学习方法相比,该方法能更快地收敛,并具有更好的可解释性。与传统的概率方法相比,该方法能学习自适应的动作选择策略,从而提高搜索效率。

关键设计:贝叶斯置信度地图通常采用高斯混合模型或占用栅格地图表示。强化学习策略可以使用各种深度神经网络结构,例如卷积神经网络(CNN)或循环神经网络(RNN)。损失函数通常采用强化学习中的标准损失函数,例如策略梯度损失或Q学习损失。关键参数包括贝叶斯滤波器的参数(例如,过程噪声和观测噪声的协方差矩阵)以及强化学习算法的超参数(例如,学习率、折扣因子和探索率)。

📊 实验亮点

实验结果表明,在Habitat 3.0的真实室内模拟环境中,所提出的方法在两个不同的室内环境中均优于基线策略。具体而言,该方法在提高成功率的同时,显著减少了搜索工作量。这表明结合贝叶斯置信度估计和学习动作选择能够实现更高效和可靠的对象搜索行为。

🎯 应用场景

该研究成果可应用于各种需要自主对象搜索的移动机器人应用场景,例如:家庭服务机器人、仓库物流机器人、安防巡逻机器人等。通过结合贝叶斯推理和深度强化学习,可以提高机器人在复杂环境中的搜索效率和可靠性,降低人工干预的需求,从而提升机器人的智能化水平和服务能力。未来,该方法还可以扩展到多目标搜索、动态环境等更复杂的场景。

📄 摘要(原文)

Autonomous object search is challenging for mobile robots operating in indoor environments due to partial observability, perceptual uncertainty, and the need to trade off exploration and navigation efficiency. Classical probabilistic approaches explicitly represent uncertainty but typically rely on handcrafted action-selection heuristics, while deep reinforcement learning enables adaptive policies but often suffers from slow convergence and limited interpretability. This paper proposes a hybrid object-search framework that integrates Bayesian inference with deep reinforcement learning. The method maintains a spatial belief map over target locations, updated online through Bayesian inference from calibrated object detections, and trains a reinforcement learning policy to select navigation actions directly from this probabilistic representation. The approach is evaluated in realistic indoor simulation using Habitat 3.0 and compared against developed baseline strategies. Across two indoor environments, the proposed method improves success rate while reducing search effort. Overall, the results support the value of combining Bayesian belief estimation with learned action selection to achieve more efficient and reliable objectsearch behavior under partial observability.