Learning Robot Safety from Sparse Human Feedback using Conformal Prediction

📄 arXiv: 2501.04823v1 📥 PDF

作者: Aaron O. Feldman, Joseph A. Vincent, Maximilian Adang, Jun En Low, Mac Schwager

分类: cs.RO, math.OC, stat.AP

发布日期: 2025-01-08


💡 一句话要点

利用保角预测,从稀疏人类反馈中学习机器人安全性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人安全 保角预测 人类反馈 强化学习 模型预测控制

📋 核心要点

  1. 现有机器人安全方法依赖于预定义约束或安全数据训练,但难以覆盖所有场景,且安全性定义主观。
  2. 该论文提出利用人类对机器人轨迹的二元安全反馈,结合保角预测方法,学习潜在空间中的不安全区域。
  3. 实验表明,该方法能有效检测四旋翼飞行器视觉运动策略的失败情况,并通过避免不安全区域提升策略安全性。

📝 摘要(中文)

确保机器人安全极具挑战性,用户定义的约束可能遗漏极端情况,即使从安全数据训练的策略也可能变得不安全,并且安全性具有主观性。因此,我们通过向人类展示策略轨迹并标记不安全行为来学习机器人安全性。基于这种二元反馈,我们使用保角预测的统计方法来识别一个状态区域(可能在学习到的潜在空间中),保证包含用户指定比例的未来策略错误。我们的方法具有样本高效性,因为它建立在最近邻分类的基础上,并避免了像保角预测中常见的保留数据。通过在机器人到达可疑的不安全区域时发出警报,我们获得了一个警告系统,该系统以保证的漏报率模仿人类的安全偏好。通过视频标记,我们的系统可以检测到四旋翼飞行器视觉运动策略何时无法通过指定的门。我们提出了一种通过避免可疑的不安全区域来改进策略的方法。通过它,我们提高了模型预测控制器的安全性,如在6个导航任务中进行的30次四旋翼飞行器实验测试所示。代码和视频已提供。

🔬 方法详解

问题定义:现有机器人安全方法,如用户定义的约束或从安全数据训练的策略,难以覆盖所有边缘情况,并且安全性本身具有主观性。因此,需要一种能够从人类反馈中学习机器人安全性的方法,从而适应不同的安全偏好和环境。

核心思路:该论文的核心思路是利用人类对机器人行为的二元安全反馈(安全/不安全),通过保角预测方法学习一个状态空间区域,该区域包含未来策略错误的可能性较高。通过避免进入该区域,可以提高机器人的安全性。

技术框架:整体框架包括以下几个阶段:1) 机器人执行策略并生成轨迹;2) 人类观察轨迹并标记不安全行为;3) 使用标记数据训练一个分类器,区分安全和不安全状态;4) 使用保角预测方法,基于分类器的输出,估计一个状态区域,该区域以一定的置信度包含未来的不安全状态;5) 在机器人控制过程中,如果预测到机器人将进入该不安全区域,则发出警告或调整策略。

关键创新:该论文的关键创新在于将保角预测方法应用于机器人安全学习,并结合人类反馈。与传统的保角预测方法不同,该方法避免了保留数据,从而提高了样本效率。此外,该方法还提出了一种通过避免不安全区域来改进策略的方法。

关键设计:该方法使用最近邻分类器作为基础分类器,用于区分安全和不安全状态。保角预测方法用于估计一个状态区域,该区域以一定的置信度包含未来的不安全状态。该置信度由用户指定,用于控制警告系统的漏报率。策略改进通过修改模型预测控制器的目标函数来实现,从而避免进入不安全区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统能够有效地检测四旋翼飞行器视觉运动策略的失败情况。通过避免可疑的不安全区域,模型预测控制器的安全性得到了显著提高。在6个导航任务中进行的30次四旋翼飞行器飞行实验表明,该方法能够有效地提高机器人的安全性。

🎯 应用场景

该研究成果可应用于各种机器人安全相关的场景,例如自动驾驶、无人机巡检、工业机器人等。通过学习人类的安全偏好,可以提高机器人在复杂环境中的安全性,减少事故发生的可能性,并增强人机协作的可靠性。该方法还可用于评估和验证机器人系统的安全性。

📄 摘要(原文)

Ensuring robot safety can be challenging; user-defined constraints can miss edge cases, policies can become unsafe even when trained from safe data, and safety can be subjective. Thus, we learn about robot safety by showing policy trajectories to a human who flags unsafe behavior. From this binary feedback, we use the statistical method of conformal prediction to identify a region of states, potentially in learned latent space, guaranteed to contain a user-specified fraction of future policy errors. Our method is sample-efficient, as it builds on nearest neighbor classification and avoids withholding data as is common with conformal prediction. By alerting if the robot reaches the suspected unsafe region, we obtain a warning system that mimics the human's safety preferences with guaranteed miss rate. From video labeling, our system can detect when a quadcopter visuomotor policy will fail to steer through a designated gate. We present an approach for policy improvement by avoiding the suspected unsafe region. With it we improve a model predictive controller's safety, as shown in experimental testing with 30 quadcopter flights across 6 navigation tasks. Code and videos are provided.