Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis

📄 arXiv: 2502.00935v3 📥 PDF

作者: Kensuke Nakamura, Lasse Peters, Andrea Bajcsy

分类: cs.RO, cs.LG

发布日期: 2025-02-02 (更新: 2025-04-30)

备注: 9 figures, 7 tables, RSS 2025

期刊: Proceedings of Robotics: Science and Systems, 2025

DOI: 10.15607/RSS.2025.XXI.113


💡 一句话要点

提出基于隐空间可达性分析的Latent Safety Filters,实现超越避障的通用安全保障。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人安全 可达性分析 隐空间表示 世界模型 安全控制

📋 核心要点

  1. 现有HJ可达性方法依赖于人工设计的低维状态空间和动力学模型,难以处理复杂、高维的安全约束。
  2. 提出Latent Safety Filters,通过在生成世界模型的隐空间中进行安全分析,直接从原始观察数据学习安全策略。
  3. 实验表明,该方法能有效保护机器人免受复杂安全危害,如防止倾倒物体,且适用于多种控制策略。

📝 摘要(中文)

Hamilton-Jacobi (HJ) 可达性分析是一个严格的数学框架,它使机器人能够同时检测不安全状态并生成防止未来故障的动作。虽然理论上,HJ 可达性可以为非线性系统和非凸约束合成安全控制器,但实际上,它一直局限于通过低维状态空间表示和第一性原理动力学建模的手工设计的避障约束。本文旨在推广安全机器人控制器,以防止难以(如果不是不可能)手动编写的故障,但可以从高维观察中直观地识别这些故障:例如,洒出袋子里的东西。我们提出了 Latent Safety Filters,它是 HJ 可达性的隐空间泛化,可以直接在原始观察数据(例如,RGB 图像)上进行处理,以自动计算安全保持动作,而无需显式的恢复演示,方法是在生成世界模型的潜在嵌入空间中执行安全分析。我们的方法利用各种质量的机器人观察-动作数据(包括成功、随机探索和不安全演示)来学习世界模型。然后,约束规范被转换为学习的世界模型的潜在空间中的分类问题。在模拟和硬件实验中,我们计算了 Latent Safety Filters 的近似值,以保护任意策略(从模仿学习策略到直接遥操作)免受复杂的安全危害,例如防止 Franka Research 3 机械臂洒出袋子里的东西或推倒杂乱的物体。

🔬 方法详解

问题定义:现有基于Hamilton-Jacobi (HJ)可达性分析的安全控制方法,通常依赖于人工设计的低维状态空间表示和第一性原理动力学模型。这使得它们难以处理复杂、高维的安全约束,例如防止机器人倾倒装满物品的袋子。这些约束难以用显式数学公式表达,需要从高维视觉信息中进行判断。因此,如何将HJ可达性分析扩展到高维、复杂的安全约束是本文要解决的核心问题。

核心思路:本文的核心思路是将安全分析从原始高维观察空间转移到生成世界模型的低维隐空间中。通过学习一个能够捕捉环境关键特征的生成模型,可以将复杂的安全约束转化为隐空间中的分类问题。然后,利用HJ可达性分析在隐空间中计算安全策略,并将这些策略映射回原始动作空间,从而实现对复杂安全约束的保障。这种方法避免了手动设计复杂约束的需要,并能够直接从原始观察数据中学习安全策略。

技术框架:该方法主要包含以下几个模块:1) 数据收集:收集包含成功、随机探索和不安全演示的机器人观察-动作数据。2) 世界模型学习:利用收集到的数据训练一个生成世界模型,该模型能够将高维观察数据编码到低维隐空间,并从隐空间解码回观察空间。3) 约束规范:将安全约束转化为隐空间中的分类问题,例如,定义隐空间中哪些区域代表“安全”状态,哪些区域代表“不安全”状态。4) 隐空间可达性分析:利用HJ可达性分析在隐空间中计算安全策略,该策略能够引导机器人从不安全状态转移到安全状态。5) 动作映射:将隐空间中的安全策略映射回原始动作空间,从而控制机器人的行为。

关键创新:该方法最重要的创新点在于将HJ可达性分析扩展到了生成世界模型的隐空间中。与传统的基于显式状态空间表示的方法相比,该方法能够直接从原始观察数据中学习安全策略,无需手动设计复杂的约束。此外,该方法还能够利用各种质量的机器人数据,包括成功、随机探索和不安全演示,从而提高学习效率和泛化能力。

关键设计:在世界模型学习方面,可以使用变分自编码器(VAE)或生成对抗网络(GAN)等模型。约束规范可以通过人工标注或自动学习的方式获得。在隐空间可达性分析方面,可以使用现有的HJ求解器,例如level set方法。动作映射可以通过学习一个从隐空间到动作空间的映射函数来实现。损失函数可以包括重构损失(用于训练世界模型)、分类损失(用于规范安全约束)和控制损失(用于优化安全策略)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟和硬件实验中,Latent Safety Filters成功地保护Franka Research 3机械臂免受复杂的安全危害,例如防止倾倒袋子里的东西或推倒杂乱的物体。该方法能够有效地将任意策略(从模仿学习策略到直接遥操作)转化为安全策略,并且无需显式的恢复演示。实验结果表明,该方法能够显著提高机器人的安全性,并使其能够在复杂环境中安全可靠地运行。

🎯 应用场景

该研究成果可广泛应用于机器人安全控制领域,尤其适用于需要处理复杂、高维安全约束的场景,例如服务机器人、自动驾驶汽车和工业机器人。通过学习环境的潜在表示,机器人能够更好地理解和预测潜在的安全风险,从而采取相应的安全措施,避免发生事故。该方法还可以用于提高机器人的自主性和适应性,使其能够在复杂和动态的环境中安全可靠地运行。

📄 摘要(原文)

Hamilton-Jacobi (HJ) reachability is a rigorous mathematical framework that enables robots to simultaneously detect unsafe states and generate actions that prevent future failures. While in theory, HJ reachability can synthesize safe controllers for nonlinear systems and nonconvex constraints, in practice, it has been limited to hand-engineered collision-avoidance constraints modeled via low-dimensional state-space representations and first-principles dynamics. In this work, our goal is to generalize safe robot controllers to prevent failures that are hard--if not impossible--to write down by hand, but can be intuitively identified from high-dimensional observations: for example, spilling the contents of a bag. We propose Latent Safety Filters, a latent-space generalization of HJ reachability that tractably operates directly on raw observation data (e.g., RGB images) to automatically compute safety-preserving actions without explicit recovery demonstrations by performing safety analysis in the latent embedding space of a generative world model. Our method leverages diverse robot observation-action data of varying quality (including successes, random exploration, and unsafe demonstrations) to learn a world model. Constraint specification is then transformed into a classification problem in the latent space of the learned world model. In simulation and hardware experiments, we compute an approximation of Latent Safety Filters to safeguard arbitrary policies (from imitation- learned policies to direct teleoperation) from complex safety hazards, like preventing a Franka Research 3 manipulator from spilling the contents of a bag or toppling cluttered objects.