Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models

📄 arXiv: 2409.04965v2 📥 PDF

作者: Congcong Wen, Yifan Liu, Geeta Chandra Raju Bethala, Shuaihang Yuan, Hao Huang, Yu Hao, Mengyu Wang, Yu-Shen Liu, Anthony Tzes, Yi Fang

分类: cs.RO

发布日期: 2024-09-08 (更新: 2025-03-23)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HSAC-LLM,通过双向自然语言交互增强社交感知机器人导航能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交感知导航 人机交互 深度强化学习 大型语言模型 机器人导航

📋 核心要点

  1. 传统机器人导航侧重效率和避障,忽略了共享空间中的人类行为,而现有社交感知导航方法缺乏真正的人机交互。
  2. HSAC-LLM通过深度强化学习和大型语言模型融合,实现双向自然语言交互,使机器人能预测导航动作并主动与行人沟通。
  3. 实验表明,HSAC-LLM在交互、导航和避障方面优于现有DRL方法,提升了动态环境中人机交互的有效性。

📝 摘要(中文)

本文提出了一种名为HSAC-LLM的新型框架,用于增强社交感知机器人导航能力。该框架将深度强化学习与大型语言模型相结合,实现了双向自然语言交互,从而能够预测连续和离散的导航动作。当潜在碰撞发生时,机器人能够主动与行人进行沟通,以确定避让策略。在2D模拟、Gazebo和真实环境中的实验表明,HSAC-LLM在交互、导航和避障方面优于现有最先进的DRL方法。该范式推进了动态环境中有效的人机交互。

🔬 方法详解

问题定义:现有机器人导航方法主要关注效率和避障,缺乏对人类社会行为的理解和交互能力,尤其是在动态环境中。传统方法通常依赖于预测行人轨迹或发出警报,无法实现真正的人机协作,导致导航体验不自然,甚至可能引起冲突。因此,如何使机器人能够理解人类意图,并通过自然语言进行有效沟通,是当前社交感知导航面临的关键问题。

核心思路:HSAC-LLM的核心思路是将深度强化学习(DRL)与大型语言模型(LLM)相结合,使机器人能够同时学习导航策略和进行自然语言交互。DRL负责学习最优的导航动作,而LLM则负责理解人类的语言指令,并生成合适的回复。通过这种方式,机器人可以根据环境和人类的意图,动态地调整导航策略,实现更自然、更高效的社交感知导航。

技术框架:HSAC-LLM的整体框架包含以下几个主要模块:1) 环境感知模块:负责感知周围环境信息,包括行人位置、速度等;2) 导航策略模块:基于深度强化学习算法(Hybrid Soft Actor-Critic)学习最优的导航策略,输出连续的运动控制指令;3) 语言理解模块:利用大型语言模型(LLM)理解人类的语言指令,提取关键信息;4) 语言生成模块:基于LLM生成自然语言回复,与人类进行沟通;5) 决策融合模块:将导航策略和语言理解结果进行融合,生成最终的导航动作。

关键创新:HSAC-LLM的关键创新在于将深度强化学习与大型语言模型相结合,实现了双向自然语言交互。与传统的社交感知导航方法相比,HSAC-LLM不仅可以预测行人轨迹,还可以主动与行人进行沟通,从而更好地理解人类意图,并做出更合理的导航决策。此外,HSAC-LLM采用Hybrid Soft Actor-Critic算法,能够同时处理连续和离散的导航动作,提高了导航的灵活性和适应性。

关键设计:在HSAC-LLM中,Hybrid Soft Actor-Critic算法用于学习导航策略,其损失函数包括Actor损失、Critic损失和Soft Q-function损失。大型语言模型采用预训练的Transformer模型,并通过微调来适应机器人导航场景。在训练过程中,采用模仿学习和强化学习相结合的方式,首先利用人类专家数据进行模仿学习,然后通过强化学习来进一步优化导航策略。此外,还设计了专门的奖励函数,鼓励机器人与人类进行积极的互动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HSAC-LLM在2D模拟、Gazebo和真实环境中均优于现有最先进的DRL方法。在交互方面,HSAC-LLM能够更有效地与行人进行沟通,减少碰撞风险。在导航方面,HSAC-LLM能够更快地到达目标地点,并保持更舒适的社交距离。在避障方面,HSAC-LLM能够更有效地避开障碍物,并避免陷入死锁状态。具体性能数据未知,但整体表现优于对比基线。

🎯 应用场景

HSAC-LLM具有广泛的应用前景,可应用于服务机器人、自动驾驶汽车、智能家居等领域。例如,在医院中,服务机器人可以利用HSAC-LLM与患者进行自然语言交流,引导患者前往指定地点,并避开拥挤区域。在自动驾驶汽车中,HSAC-LLM可以帮助车辆理解行人的意图,并做出更安全的驾驶决策。该研究有望推动人机协作的进一步发展,提高生活质量。

📄 摘要(原文)

Robot navigation is crucial across various domains, yet traditional methods focus on efficiency and obstacle avoidance, often overlooking human behavior in shared spaces. With the rise of service robots, socially aware navigation has gained prominence. However, existing approaches primarily predict pedestrian movements or issue alerts, lacking true human-robot interaction. We introduce Hybrid Soft Actor-Critic with Large Language Model (HSAC-LLM), a novel framework for socially aware navigation. By integrating deep reinforcement learning with large language models, HSAC-LLM enables bidirectional natural language interactions, predicting both continuous and discrete navigation actions. When potential collisions arise, the robot proactively communicates with pedestrians to determine avoidance strategies. Experiments in 2D simulation, Gazebo, and real-world environments demonstrate that HSAC-LLM outperforms state-of-the-art DRL methods in interaction, navigation, and obstacle avoidance. This paradigm advances effective human-robot interactions in dynamic settings. Videos are available at https://hsacllm.github.io/.