Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning
作者: Daniel Flögel, Marcos Gómez Villafañe, Joshua Ransiek, Sören Hohmann
分类: cs.RO, cs.AI, eess.SY
发布日期: 2024-09-16 (更新: 2025-07-09)
备注: Accepted at 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 8 pages, 6 figures and 4 tables
💡 一句话要点
提出基于不确定性解耦的深度强化学习方法,用于安全社交导航。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 不确定性估计 安全导航 社交机器人 近端策略优化
📋 核心要点
- 现有深度强化学习方法在复杂环境中难以准确评估策略不确定性,导致潜在的安全风险。
- 该论文提出一种新颖的框架,通过解耦偶然、认知和预测不确定性,提升机器人对环境变化的适应性。
- 实验结果表明,该方法在扰动环境中能更准确地估计不确定性,并减少碰撞,提升导航安全性。
📝 摘要(中文)
自主移动机器人在行人密集环境中应用日益广泛,安全导航和适当的人机交互至关重要。深度强化学习(DRL)虽然能够实现社交融合的机器人行为,但在新颖或受扰动场景中,如何指示策略的不确定性及其原因仍然面临挑战。决策中未知的不确定性可能导致碰撞或人类不适,这也是安全和风险感知导航仍然是一个开放性问题的原因之一。本研究提出了一种新方法,将偶然不确定性、认知不确定性和预测不确定性估计集成到DRL导航框架中,以进行策略分布不确定性估计。为此,我们将观察依赖方差(ODV)和dropout融入到近端策略优化(PPO)算法中。针对不同类型的扰动,我们比较了深度集成和蒙特卡洛dropout(MC-dropout)估计策略不确定性的能力。在不确定的决策情况下,我们建议将机器人的社交行为改变为保守的避碰行为。结果表明,在PPO中使用ODV和dropout可以提高训练性能,并揭示了训练场景对泛化的影响。此外,MC-dropout对扰动更敏感,并且能更好地将不确定性类型与扰动相关联。通过安全动作选择,机器人可以在受扰动的环境中以更少的碰撞进行导航。
🔬 方法详解
问题定义:论文旨在解决在行人环境中,机器人利用深度强化学习进行社交导航时,由于环境扰动或新颖场景导致策略不确定性增加,进而引发碰撞或人类不适的问题。现有方法难以有效区分和量化不同类型的不确定性,无法根据不确定性程度调整机器人的行为策略。
核心思路:核心思路是将不确定性进行解耦,分别估计偶然不确定性(aleatoric uncertainty)、认知不确定性(epistemic uncertainty)和预测不确定性(predictive uncertainty)。通过对不同类型的不确定性进行建模,机器人可以更好地理解自身决策的可靠性,并在高不确定性情况下采取更保守的行动,从而提高导航的安全性。
技术框架:整体框架基于近端策略优化(PPO)算法,并在此基础上集成了不确定性估计模块。主要包含以下几个阶段:1) 环境感知:机器人获取周围环境信息,例如行人位置、速度等;2) 不确定性估计:利用观察依赖方差(ODV)和蒙特卡洛dropout(MC-dropout)估计不同类型的不确定性;3) 策略优化:基于PPO算法,结合不确定性信息,优化机器人的导航策略;4) 安全动作选择:在高不确定性情况下,选择更保守的动作,例如减速或停止。
关键创新:最重要的创新点在于将不同类型的不确定性解耦,并将其融入到深度强化学习框架中。与传统的只关注策略优化方法相比,该方法能够更全面地评估决策风险,并根据风险程度调整机器人的行为。此外,利用ODV和MC-dropout进行不确定性估计也是一个创新点。
关键设计:在PPO算法中,引入了ODV来估计偶然不确定性,通过预测状态转移的方差来反映环境的随机性。同时,使用MC-dropout来估计认知不确定性,通过多次dropout采样来评估模型参数的不确定性。在损失函数方面,除了PPO原有的损失函数外,还引入了与不确定性相关的正则化项,以鼓励模型学习更可靠的策略。在高不确定性情况下,采用保守的动作选择策略,例如选择速度较低或避碰概率较高的动作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在PPO中引入ODV和dropout可以提高训练性能。MC-dropout对扰动更敏感,并且能更好地将不确定性类型与扰动相关联。通过安全动作选择,机器人在受扰动的环境中碰撞次数显著减少,验证了该方法在提高导航安全性方面的有效性。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于各种需要在复杂环境中安全导航的机器人,例如服务机器人、自动驾驶车辆、无人机等。通过提高机器人对环境变化的适应性和风险感知能力,可以减少事故发生,提升用户体验,并促进机器人在实际场景中的广泛应用。未来,该方法还可以扩展到其他需要考虑不确定性的决策问题中。
📄 摘要(原文)
Autonomous mobile robots are increasingly used in pedestrian-rich environments where safe navigation and appropriate human interaction are crucial. While Deep Reinforcement Learning (DRL) enables socially integrated robot behavior, challenges persist in novel or perturbed scenarios to indicate when and why the policy is uncertain. Unknown uncertainty in decision-making can lead to collisions or human discomfort and is one reason why safe and risk-aware navigation is still an open problem. This work introduces a novel approach that integrates aleatoric, epistemic, and predictive uncertainty estimation into a DRL navigation framework for policy distribution uncertainty estimates. We, therefore, incorporate Observation-Dependent Variance (ODV) and dropout into the Proximal Policy Optimization (PPO) algorithm. For different types of perturbations, we compare the ability of deep ensembles and Monte-Carlo dropout (MC-dropout) to estimate the uncertainties of the policy. In uncertain decision-making situations, we propose to change the robot's social behavior to conservative collision avoidance. The results show improved training performance with ODV and dropout in PPO and reveal that the training scenario has an impact on the generalization. In addition, MC-dropout is more sensitive to perturbations and correlates the uncertainty type to the perturbation better. With the safe action selection, the robot can navigate in perturbed environments with fewer collisions.