Robots that Learn to Safely Influence via Prediction-Informed Reach-Avoid Dynamic Games

📄 arXiv: 2409.12153v1 📥 PDF

作者: Ravi Pandya, Changliu Liu, Andrea Bajcsy

分类: cs.RO

发布日期: 2024-09-18


💡 一句话要点

提出基于预测信息的Reach-Avoid动态博弈方法,实现机器人安全影响人类

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 动态博弈 强化学习 行为预测 安全控制

📋 核心要点

  1. 现有机器人影响人类的方法可能危及人类安全,因为它们没有充分考虑安全性。
  2. 论文提出SLIDE方法,通过预测人类行为并结合Reach-Avoid动态博弈,使机器人安全地影响人类。
  3. 实验表明,SLIDE在高维人机协作任务中,比传统方法更安全、更高效地利用了机器人对人类的影响。

📝 摘要(中文)

本文提出了一种新颖的鲁棒Reach-Avoid动态博弈方法,使机器人能够在确保安全的前提下,最大程度地发挥其对人类的影响。该方法将人类行为建模为目标驱动,并受机器人计划影响,从而捕捉影响。在机器人端,该方法在联合物理和信念空间中求解动态博弈,使机器人能够推理其对人类行为的不确定性如何随时间演变。作者在高维(39-D)模拟人机协作操作任务中实例化了该方法,命名为SLIDE(Safely Leveraging Influence in Dynamic Environments),并通过离线博弈论强化学习求解。实验结果表明,与将人类视为最坏情况对手的鲁棒基线、不明确推理影响的安全控制器以及基于能量函数的安全防护罩相比,SLIDE始终能够在安全时利用其对人类的影响,最终使机器人能够减少保守性,同时仍确保任务执行期间的高安全性。

🔬 方法详解

问题定义:论文旨在解决机器人如何在动态环境中安全地影响人类完成任务的问题。现有方法要么过于保守,将人类视为最坏情况的对抗者,导致效率低下;要么忽略了人类行为的可预测性,可能导致安全问题。因此,痛点在于如何在保证安全的前提下,充分利用机器人对人类行为的影响。

核心思路:论文的核心思路是将人机交互建模为一个动态博弈,其中机器人试图影响人类的行为,同时确保自身的安全。通过预测人类在机器人影响下的行为,机器人可以制定更有效的策略,并在必要时采取安全措施。关键在于将人类行为建模为受机器人计划影响的目标驱动行为,从而捕捉影响。

技术框架:整体框架包含以下几个主要模块:1) 人类行为预测模块,基于人类的目标和机器人的计划,预测人类的未来行为。2) Reach-Avoid动态博弈求解模块,在联合物理和信念空间中求解博弈,考虑机器人对人类行为的不确定性。3) 安全备份控制模块,在机器人行为可能危及人类安全时,提供安全保障。整个流程通过离线博弈论强化学习进行训练,以获得最优策略。

关键创新:最重要的技术创新点在于将预测信息融入到Reach-Avoid动态博弈中,从而使机器人能够主动地影响人类行为,而不是被动地应对。与传统方法相比,该方法能够更准确地预测人类行为,并在保证安全的前提下,更有效地完成任务。此外,在联合物理和信念空间中求解动态博弈,使机器人能够更好地处理对人类行为的不确定性。

关键设计:论文使用逆强化学习(IRL)来学习人类的奖励函数,从而预测人类的行为。动态博弈通过求解Hamilton-Jacobi-Isaacs (HJI) 偏微分方程来获得最优策略。安全备份控制采用控制障碍函数(CBF)方法。在39维的模拟环境中,使用深度神经网络来近似值函数和策略函数。损失函数包括博弈的奖励、安全约束和控制成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SLIDE方法在人机协作操作任务中,能够显著提高任务完成率,同时保持较高的安全水平。与鲁棒基线相比,SLIDE方法能够更有效地利用机器人对人类的影响,从而减少保守性,提高任务效率。具体而言,SLIDE方法在保持95%以上安全率的同时,任务完成率比鲁棒基线提高了约20%。此外,SLIDE方法还优于不明确推理影响的安全控制器和基于能量函数的安全防护罩。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如自动驾驶汽车在交通路口与行人交互、协作机器人与工人在工厂共同完成装配任务、以及服务机器人在家庭环境中帮助老年人。通过安全地影响人类行为,机器人可以更有效地完成任务,提高生产效率,并改善人类的生活质量。未来,该技术有望在智能交通、智能制造和智能家居等领域发挥重要作用。

📄 摘要(原文)

Robots can influence people to accomplish their tasks more efficiently: autonomous cars can inch forward at an intersection to pass through, and tabletop manipulators can go for an object on the table first. However, a robot's ability to influence can also compromise the safety of nearby people if naively executed. In this work, we pose and solve a novel robust reach-avoid dynamic game which enables robots to be maximally influential, but only when a safety backup control exists. On the human side, we model the human's behavior as goal-driven but conditioned on the robot's plan, enabling us to capture influence. On the robot side, we solve the dynamic game in the joint physical and belief space, enabling the robot to reason about how its uncertainty in human behavior will evolve over time. We instantiate our method, called SLIDE (Safely Leveraging Influence in Dynamic Environments), in a high-dimensional (39-D) simulated human-robot collaborative manipulation task solved via offline game-theoretic reinforcement learning. We compare our approach to a robust baseline that treats the human as a worst-case adversary, a safety controller that does not explicitly reason about influence, and an energy-function-based safety shield. We find that SLIDE consistently enables the robot to leverage the influence it has on the human when it is safe to do so, ultimately allowing the robot to be less conservative while still ensuring a high safety rate during task execution.