SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning
作者: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li
分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY
发布日期: 2024-07-24 (更新: 2025-02-06)
备注: Project website: https://sonic-social-nav.github.io/; 16 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SoNIC,结合自适应共形推断与约束强化学习,实现安全社交导航。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 社交导航 强化学习 约束强化学习 自适应共形推断 机器人 安全性 不确定性量化
📋 核心要点
- 现有基于强化学习的社交导航方法难以保证复杂环境中的安全性,存在碰撞风险。
- SoNIC结合自适应共形推断量化不确定性,并利用约束强化学习引导智能体安全行为。
- 在CrowdNav上成功率提升11.67%,碰撞次数显著减少,并在真实机器人上验证了有效性。
📝 摘要(中文)
本文提出SoNIC,据我们所知,这是第一个将自适应共形推断(ACI)与约束强化学习(CRL)相结合,为社交导航实现安全策略学习的算法。该方法不仅利用ACI生成的非一致性分数增强了RL的观测,从而告知智能体量化的不确定性,而且还利用这些不确定性估计,通过约束强化学习有效地指导RL智能体的行为。这种集成规范了RL智能体的行为,使其能够处理安全关键的情况。在标准的CrowdNav基准测试中,我们的方法实现了96.93%的成功率,比之前的最先进的RL方法高出11.67%,碰撞次数减少了4.5倍,对真实人类未来轨迹的侵入减少了2.8倍,并且增强了在分布外场景中的鲁棒性。为了进一步验证我们的方法,我们通过开发一个基于ROS2的导航系统,将我们的算法部署在真实的机器人上。我们的实验表明,该系统在与稀疏和密集人群互动时,可以产生稳健和具有社交礼貌的决策。
🔬 方法详解
问题定义:社交导航任务要求机器人在人群中安全、高效地移动,避免与行人碰撞。现有的基于强化学习的方法虽然能够学习复杂的导航策略,但在安全性方面存在不足,尤其是在复杂和动态的环境中,容易发生碰撞或侵犯行人的个人空间。因此,如何提高强化学习在社交导航中的安全性是一个关键问题。
核心思路:SoNIC的核心思路是将自适应共形推断(ACI)与约束强化学习(CRL)相结合。ACI用于量化环境的不确定性,并将这种不确定性信息融入到强化学习的观测中。CRL则利用这些不确定性估计来约束强化学习智能体的行为,使其在不确定性较高的情况下更加谨慎,从而保证安全性。
技术框架:SoNIC的整体框架包括以下几个主要模块:1)环境感知模块:负责获取周围环境的信息,例如行人位置、速度等。2)自适应共形推断模块:利用历史数据训练一个预测模型,并使用ACI来估计预测结果的不确定性。3)约束强化学习模块:使用强化学习算法学习导航策略,同时利用ACI估计的不确定性来约束智能体的行为。4)运动控制模块:根据强化学习算法输出的动作,控制机器人的运动。
关键创新:SoNIC的关键创新在于将ACI与CRL相结合,利用ACI量化环境的不确定性,并将其用于指导CRL智能体的行为。这种方法能够有效地提高强化学习在社交导航中的安全性,使其能够在复杂和动态的环境中安全地导航。据作者所知,这是第一个将ACI与CRL结合用于社交导航的算法。
关键设计:在ACI模块中,使用滑动窗口来收集历史数据,并使用非参数方法来估计预测结果的不确定性。在CRL模块中,使用拉格朗日乘子法来求解约束优化问题,其中约束条件是机器人的碰撞概率低于某个阈值。损失函数包括强化学习的奖励函数和约束条件的惩罚项。网络结构采用Actor-Critic框架,Actor网络输出机器人的动作,Critic网络评估当前状态的价值。
🖼️ 关键图片
📊 实验亮点
SoNIC在CrowdNav基准测试中取得了显著的性能提升,成功率达到96.93%,比之前的最先进的RL方法高出11.67%。此外,SoNIC还显著减少了碰撞次数(减少4.5倍)和对真实人类未来轨迹的侵入(减少2.8倍)。在真实机器人实验中,SoNIC也表现出良好的鲁棒性和社交礼貌性,能够安全地与人群互动。
🎯 应用场景
SoNIC具有广泛的应用前景,可应用于服务机器人、自动驾驶汽车、无人机等领域。例如,在医院、商场等人员密集的场所,服务机器人可以利用SoNIC安全地为人们提供服务。在自动驾驶汽车领域,SoNIC可以提高自动驾驶汽车在复杂交通环境中的安全性。此外,该方法还可以应用于其他安全关键的强化学习任务,例如机器人操作、资源管理等。
📄 摘要(原文)
Reinforcement learning (RL) enables social robots to generate trajectories without relying on human-designed rules or interventions, making it generally more effective than rule-based systems in adapting to complex, dynamic real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians, whereas existing RL-based solutions often fall short of ensuring safety in complex environments. In this paper, we propose SoNIC, which to the best of our knowledge is the first algorithm that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to enable safe policy learning for social navigation. Specifically, our method not only augments RL observations with ACI-generated nonconformity scores, which inform the agent of the quantified uncertainty but also employs these uncertainty estimates to effectively guide the behaviors of RL agents by using constrained reinforcement learning. This integration regulates the behaviors of RL agents and enables them to handle safety-critical situations. On the standard CrowdNav benchmark, our method achieves a success rate of 96.93%, which is 11.67% higher than the previous state-of-the-art RL method and results in 4.5 times fewer collisions and 2.8 times fewer intrusions to ground-truth human future trajectories as well as enhanced robustness in out-of-distribution scenarios. To further validate our approach, we deploy our algorithm on a real robot by developing a ROS2-based navigation system. Our experiments demonstrate that the system can generate robust and socially polite decision-making when interacting with both sparse and dense crowds. The video demos can be found on our project website: https://sonic-social-nav.github.io/.