Robots that Suggest Safe Alternatives

📄 arXiv: 2409.09883v2 📥 PDF

作者: Hyun Joe Jeong, Rosy Chen, Andrea Bajcsy

分类: cs.RO

发布日期: 2024-09-15 (更新: 2025-03-03)

备注: 10 pages, 6 figures, 2 tables


💡 一句话要点

提出SALT框架,使机器人能在不安全目标下建议安全替代方案

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 安全滤波 目标条件策略 模仿学习 可达性分析

📋 核心要点

  1. 现有目标条件策略在分布外请求下难以保证安全执行,这是机器人应用中的一个挑战。
  2. SALT框架将替代方案建议视为目标空间中的安全控制问题,利用reach-avoid价值网络作为安全滤波器。
  3. 仿真实验表明,SALT能有效预测执行结果,提出用户可接受的替代方案,优于开环不确定性量化。

📝 摘要(中文)

模仿学习等目标条件策略为人类影响机器人任务提供了一种简便方法。然而,这些策略不能保证在面对分布外请求时安全执行或成功。本文旨在使机器人能够识别何时能够自信地执行用户期望的目标,并在不能执行时自动建议安全的替代方案。该方法受到控制理论安全滤波的启发,其中安全滤波器对机器人的候选动作进行最小调整以确保安全。核心思想是将替代方案建议视为目标空间中的安全控制问题,而不是动作空间。离线状态下,使用可达性分析计算目标参数化的reach-avoid价值网络,量化机器人预训练策略的安全性和活性。在线状态下,机器人使用reach-avoid价值网络作为安全滤波器,监控人类给定的目标,并主动建议相似但满足安全规范的替代方案。在室内导航和Franka Panda桌面操作的仿真实验中,使用离散和连续目标表示验证了Safe ALTernatives (SALT)框架。实验结果表明,SALT能够学习预测成功和失败的闭环执行,比开环不确定性量化更保守,并提出与人们认为可接受的方案一致的替代方案。

🔬 方法详解

问题定义:论文旨在解决机器人执行用户指定目标时,由于目标超出机器人安全范围或能力范围,导致执行失败或产生安全风险的问题。现有方法,如模仿学习,虽然能让机器人学习执行各种任务,但无法保证在所有情况下都能安全可靠地完成任务。尤其是在面对未知的、分布外的目标请求时,机器人可能会盲目执行,导致危险或失败。

核心思路:论文的核心思路是将安全替代方案的生成问题,从传统的动作空间转移到目标空间。通过在目标空间中进行安全控制,可以更直观地理解和调整目标,从而找到既满足用户需求,又符合机器人安全约束的替代方案。这种方法避免了直接在动作空间中进行复杂调整,降低了计算复杂度和潜在风险。

技术框架:SALT框架主要包含离线训练和在线执行两个阶段。离线阶段,利用可达性分析计算一个目标参数化的reach-avoid价值网络,该网络能够评估给定目标的安全性和活性。在线阶段,机器人接收到用户指定的目标后,首先使用reach-avoid价值网络进行评估。如果目标被认为是不安全的,则机器人会主动搜索并建议替代目标,这些替代目标在目标空间中与原始目标相似,但满足安全规范。

关键创新:SALT框架的关键创新在于将安全滤波的思想从动作空间扩展到目标空间。传统的安全滤波通常是在动作层面进行调整,以确保机器人的动作是安全的。而SALT框架则是在目标层面进行调整,通过改变目标来避免潜在的安全问题。这种方法更加灵活和直观,能够更好地适应不同的任务和环境。

关键设计:reach-avoid价值网络是SALT框架的核心组件。该网络通过离线学习,能够预测给定目标的安全性和活性。网络的输入是目标参数,输出是reach-avoid值,用于评估目标的安全性。论文中使用了特定的网络结构和损失函数来训练该网络,使其能够准确地预测闭环执行的结果。此外,论文还设计了一种目标搜索算法,用于在目标空间中寻找安全的替代目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SALT框架能够有效地预测闭环执行的结果,并提出与用户期望一致的安全替代方案。与开环不确定性量化方法相比,SALT框架更加保守,能够更好地避免潜在的安全风险。在仿真实验中,SALT框架成功应用于室内导航和Franka Panda桌面操作任务,验证了其在不同场景下的适用性。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如家庭服务机器人、工业机器人和自动驾驶汽车。通过为机器人配备安全替代方案建议能力,可以提高人机交互的安全性、可靠性和用户体验。例如,在家庭环境中,机器人可以避免执行可能损坏家具或伤害用户的任务;在工业环境中,机器人可以避免执行可能导致设备故障或人员受伤的任务。

📄 摘要(原文)

Goal-conditioned policies, such as those learned via imitation learning, provide an easy way for humans to influence what tasks robots accomplish. However, these robot policies are not guaranteed to execute safely or to succeed when faced with out-of-distribution requests. In this work, we enable robots to know when they can confidently execute a user's desired goal, and automatically suggest safe alternatives when they cannot. Our approach is inspired by control-theoretic safety filtering, wherein a safety filter minimally adjusts a robot's candidate action to be safe. Our key idea is to pose alternative suggestion as a safe control problem in goal space, rather than in action space. Offline, we use reachability analysis to compute a goal-parameterized reach-avoid value network which quantifies the safety and liveness of the robot's pre-trained policy. Online, our robot uses the reach-avoid value network as a safety filter, monitoring the human's given goal and actively suggesting alternatives that are similar but meet the safety specification. We demonstrate our Safe ALTernatives (SALT) framework in simulation experiments with indoor navigation and Franka Panda tabletop manipulation, and with both discrete and continuous goal representations. We find that SALT is able to learn to predict successful and failed closed-loop executions, is a less pessimistic monitor than open-loop uncertainty quantification, and proposes alternatives that consistently align with those people find acceptable.