SANGO: Socially Aware Navigation through Grouped Obstacles

📄 arXiv: 2411.19497v1 📥 PDF

作者: Rahath Malladi, Amol Harsh, Arshia Sangwan, Sunita Chauhan, Sandeep Manjanna

分类: cs.RO, cs.LG

发布日期: 2024-11-29

备注: Indian Control Conference 2024 (ICC-10)


💡 一句话要点

SANGO:通过分组障碍物的社交感知导航方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 社交感知导航 深度强化学习 障碍物聚类 DBSCAN 近端策略优化 机器人导航 社会规范

📋 核心要点

  1. 现有导航方法在拥挤环境中难以兼顾安全性和社会规范,导致机器人行为不自然甚至引起不适。
  2. SANGO通过DBSCAN动态聚类障碍物,并结合PPO强化学习,使智能体学习符合社会规范的导航策略。
  3. 实验表明,SANGO显著降低了导航过程中的不适感和碰撞率,提高了在复杂环境中的导航成功率。

📝 摘要(中文)

本文提出了一种名为SANGO(通过分组障碍物的社交感知导航)的新方法,该方法通过动态地对障碍物进行分组并遵守社会规范来确保符合社会规范的行为。SANGO使用深度强化学习训练智能体在复杂环境中导航,利用DBSCAN算法进行障碍物聚类,并利用近端策略优化(PPO)进行路径规划。所提出的方法通过保持适当的距离和降低碰撞率来提高安全性和社会合规性。在定制的仿真环境中进行的大量实验表明,SANGO在显著降低不适感(高达83.5%)、降低碰撞率(高达29.4%)以及在动态和拥挤场景中实现更高的成功导航方面表现出优越的性能。这些发现突出了SANGO在现实世界应用中的潜力,为先进的、具有社交适应性的机器人导航系统铺平了道路。

🔬 方法详解

问题定义:现有机器人导航方法在拥挤的社交环境中,往往忽略了社会规范,例如与行人保持适当距离、避免不必要的阻挡等。这导致机器人导航行为显得突兀、不自然,甚至可能引起周围行人的不适或恐慌。因此,如何在复杂环境中实现既安全又符合社会规范的导航是一个重要的挑战。

核心思路:SANGO的核心思路是将障碍物进行动态分组,并利用强化学习训练智能体学习如何在这些分组的障碍物中进行导航,从而模拟人类在社交环境中的导航行为。通过将障碍物分组,智能体可以更好地理解环境的结构,并采取更符合社会规范的行动,例如绕过人群而不是直接穿过。

技术框架:SANGO的整体框架包含两个主要模块:障碍物聚类模块和路径规划模块。首先,使用DBSCAN算法对环境中的障碍物进行聚类,将相邻的障碍物分组。然后,使用近端策略优化(PPO)算法训练智能体学习在聚类后的环境中进行导航。智能体的状态包括自身位置、目标位置、障碍物位置以及障碍物聚类信息。智能体的动作包括移动方向和速度。奖励函数的设计考虑了安全性(避免碰撞)、效率(尽快到达目标)和社会规范(保持适当距离)。

关键创新:SANGO的关键创新在于将障碍物聚类与强化学习相结合,从而使智能体能够更好地理解环境的社交结构,并学习符合社会规范的导航策略。与传统的基于规则或基于优化的导航方法相比,SANGO能够更好地适应动态和复杂的社交环境。

关键设计:DBSCAN算法的参数(例如邻域半径和最小样本数)需要根据具体的环境进行调整,以获得合适的聚类结果。PPO算法的奖励函数需要仔细设计,以平衡安全性、效率和社会规范之间的关系。例如,可以设置一个惩罚项,当智能体过于靠近其他障碍物时,会受到惩罚。此外,网络结构的选择和超参数的调整也会影响智能体的学习效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SANGO在降低不适感方面取得了显著的提升,最高可达83.5%。同时,碰撞率也降低了高达29.4%。在动态和拥挤的场景中,SANGO能够实现更高的导航成功率。这些结果表明,SANGO在社交感知导航方面具有优越的性能,能够有效地提高机器人在复杂环境中的导航能力。

🎯 应用场景

SANGO具有广泛的应用前景,例如在商场、医院、机场等公共场所的导航机器人,以及在家庭环境中提供服务的机器人。通过使机器人能够理解和遵守社会规范,SANGO可以提高机器人的可用性和接受度,使其更好地融入人类社会。此外,该方法还可以应用于自动驾驶领域,提高自动驾驶车辆在复杂交通环境中的安全性。

📄 摘要(原文)

This paper introduces SANGO (Socially Aware Navigation through Grouped Obstacles), a novel method that ensures socially appropriate behavior by dynamically grouping obstacles and adhering to social norms. Using deep reinforcement learning, SANGO trains agents to navigate complex environments leveraging the DBSCAN algorithm for obstacle clustering and Proximal Policy Optimization (PPO) for path planning. The proposed approach improves safety and social compliance by maintaining appropriate distances and reducing collision rates. Extensive experiments conducted in custom simulation environments demonstrate SANGO's superior performance in significantly reducing discomfort (by up to 83.5%), reducing collision rates (by up to 29.4%) and achieving higher successful navigation in dynamic and crowded scenarios. These findings highlight the potential of SANGO for real-world applications, paving the way for advanced socially adept robotic navigation systems.