Adaptive Reinforcement and Model Predictive Control Switching for Safe Human-Robot Cooperative Navigation
作者: Ning Liu, Sen Shen, Zheng Li, Matthew D'Souza, Jen Jen Chung, Thomas Braunl
分类: cs.RO
发布日期: 2026-01-23
🔗 代码/项目: GITHUB
💡 一句话要点
提出ARMS框架,解决人机协作导航中安全性和机动性兼顾的难题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 强化学习 模型预测控制 安全导航 自适应控制 机器人导航 PPO LSTM
📋 核心要点
- 现有方法难以在人机协作导航中同时保证安全性和在复杂环境下的机动性,尤其是在部分可观测和人类运动不确定情况下。
- ARMS框架通过自适应神经切换器融合强化学习和模型预测控制,在安全区域偏向保守控制,在复杂区域偏向强化学习,兼顾安全和机动。
- 实验表明,ARMS在复杂环境中成功率优于DWA和纯强化学习方法,计算延迟低于多步MPC,并在仿真和真实环境中验证了其鲁棒性。
📝 摘要(中文)
本文旨在解决移动协作机器人在人引导导航中同时满足近距离控制和安全约束的挑战。我们提出了一种自适应强化学习和模型预测控制切换(ARMS)的混合学习控制框架,该框架集成了使用近端策略优化(PPO)训练的强化学习跟随器和一个解析的单步模型预测控制(MPC),MPC被构建为二次规划安全滤波器。为了在部分可观测性和非平稳的人类运动下实现鲁棒的感知,ARMS采用了解耦的感知架构,该架构具有用于人-机器人相对状态的长短期记忆(LSTM)时间编码器和用于360度激光雷达扫描的空间编码器。核心贡献是一个学习到的自适应神经切换器,它在两个控制器之间执行上下文感知的软动作融合,在低风险区域倾向于保守的、约束感知的基于QP的控制,同时在机动性至关重要的高度杂乱或受约束的场景中逐步将控制权转移到学习到的跟随器,并在QP变得不可行时恢复到跟随器动作。与Pure Pursuit、动态窗口法(DWA)和仅RL的基线相比,广泛的评估表明,ARMS在高度杂乱的环境中实现了82.5%的成功率,分别优于DWA和仅RL的方法7.1%和3.1%,同时与多步MPC基线相比,平均计算延迟降低了33%,降至5.2毫秒。在Gazebo中的额外仿真迁移和初步的真实世界部署结果进一步表明了ARMS在安全高效的人机协作中的实用性和鲁棒性。源代码和演示视频可在https://github.com/21ning/ARMS.git上找到。
🔬 方法详解
问题定义:论文旨在解决人机协作导航中,如何在保证机器人与人保持安全距离的同时,使其在复杂、动态的环境中具备足够的机动性。现有方法,如纯粹的强化学习方法,可能难以保证安全性;而传统的模型预测控制(MPC)方法,在复杂环境下计算量大,且难以适应人类行为的不确定性。
核心思路:论文的核心思路是结合强化学习和模型预测控制的优点,通过一个自适应的切换器,根据环境的复杂程度和风险等级,动态地调整两种控制器的权重。在安全区域,MPC提供保守的控制策略,保证安全性;在复杂区域,强化学习提供更灵活的控制策略,提高机动性。
技术框架:ARMS框架包含三个主要模块:1) 感知模块:使用LSTM处理历史状态信息,并结合LiDAR数据进行环境感知;2) 控制模块:包含一个基于PPO训练的强化学习跟随器和一个基于二次规划的MPC安全滤波器;3) 切换模块:一个学习到的自适应神经切换器,根据环境状态动态调整两个控制器的输出权重。整体流程是,感知模块获取环境信息,控制模块分别生成控制指令,切换模块融合两个指令,最终控制机器人运动。
关键创新:最重要的技术创新点是自适应神经切换器。它能够根据环境的复杂程度和风险等级,动态地调整强化学习和模型预测控制的权重,从而在安全性和机动性之间取得平衡。与传统的固定权重融合方法相比,自适应切换器能够更好地适应不同的环境和任务需求。
关键设计:感知模块使用LSTM来编码历史状态信息,以应对人类运动的非平稳性。强化学习跟随器使用PPO算法进行训练,目标是最大化奖励函数,奖励函数的设计需要考虑安全性、效率和舒适性。MPC安全滤波器被构建为一个二次规划问题,目标是最小化控制输入,同时满足安全约束。自适应神经切换器是一个多层感知机,输入是环境状态,输出是两个控制器的权重。
🖼️ 关键图片
📊 实验亮点
ARMS在高度杂乱的环境中实现了82.5%的导航成功率,相比于DWA提高了7.1%,相比于纯强化学习方法提高了3.1%。同时,ARMS的平均计算延迟降低了33%,达到了5.2毫秒,优于多步MPC基线。这些数据表明,ARMS在安全性和效率方面都具有显著的优势。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如:工厂车间中,机器人辅助工人搬运重物,同时保证工人的安全;医院中,机器人协助医护人员进行巡视和药物配送,提高工作效率;家庭环境中,机器人帮助老人进行日常活动,提高生活质量。该研究具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
This paper addresses the challenge of human-guided navigation for mobile collaborative robots under simultaneous proximity regulation and safety constraints. We introduce Adaptive Reinforcement and Model Predictive Control Switching (ARMS), a hybrid learning-control framework that integrates a reinforcement learning follower trained with Proximal Policy Optimization (PPO) and an analytical one-step Model Predictive Control (MPC) formulated as a quadratic program safety filter. To enable robust perception under partial observability and non-stationary human motion, ARMS employs a decoupled sensing architecture with a Long Short-Term Memory (LSTM) temporal encoder for the human-robot relative state and a spatial encoder for 360-degree LiDAR scans. The core contribution is a learned adaptive neural switcher that performs context-aware soft action fusion between the two controllers, favoring conservative, constraint-aware QP-based control in low-risk regions while progressively shifting control authority to the learned follower in highly cluttered or constrained scenarios where maneuverability is critical, and reverting to the follower action when the QP becomes infeasible. Extensive evaluations against Pure Pursuit, Dynamic Window Approach (DWA), and an RL-only baseline demonstrate that ARMS achieves an 82.5 percent success rate in highly cluttered environments, outperforming DWA and RL-only approaches by 7.1 percent and 3.1 percent, respectively, while reducing average computational latency by 33 percent to 5.2 milliseconds compared to a multi-step MPC baseline. Additional simulation transfer in Gazebo and initial real-world deployment results further indicate the practicality and robustness of ARMS for safe and efficient human-robot collaboration. Source code and a demonstration video are available at https://github.com/21ning/ARMS.git.