SHIELD: Safety on Humanoids via CBFs In Expectation on Learned Dynamics
作者: Lizhi Yang, Blake Werner, Ryan K. Cosner, David Fridovich-Keil, Preston Culbertson, Aaron D. Ames
分类: cs.RO
发布日期: 2025-05-16 (更新: 2025-08-01)
备注: Video at https://youtu.be/-Qv1wR4jfj4. To appear at IROS 2025
💡 一句话要点
SHIELD:基于学习动力学期望CBF的人形机器人安全保障
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 安全控制 控制障碍函数 动力学学习 强化学习 随机控制 避障
📋 核心要点
- 现有强化学习方法在人形机器人安全控制中,依赖奖励函数设计,缺乏形式化安全保证,且约束修改需要重新训练。
- SHIELD通过学习动力学残差模型来捕捉系统不确定性,并结合随机控制障碍函数,实现概率意义下的安全约束。
- 在Unitree G1人形机器人上的实验表明,SHIELD能够在使用未知RL控制器的前提下,实现安全导航和避障。
📝 摘要(中文)
机器人学习在人形机器人动态步态等复杂任务中产生了非常有效的“黑盒”控制器。然而,确保动态安全性,即满足约束条件,对于此类策略仍然具有挑战性。强化学习(RL)通过奖励工程启发式地嵌入约束,添加或修改约束需要重新训练。基于模型的方法,如控制障碍函数(CBF),能够以形式化保证进行运行时约束规范,但需要精确的动力学模型。本文提出了SHIELD,一个分层安全框架,通过以下方式弥合了这一差距:(1)使用来自标称控制器的硬件rollout的真实世界数据训练生成式随机动力学残差模型,捕获系统行为和不确定性;(2)在标称(学习步态)控制器之上添加一个安全层,该安全层通过随机离散时间CBF公式利用该模型,以概率方式强制执行安全约束。结果是一个最小侵入性的安全层,可以添加到现有的自主堆栈中,以提供平衡风险和性能的概率安全保证。在Unitree G1人形机器人的硬件实验中,SHIELD使用标称(未知)RL控制器和板载感知,实现了在各种室内和室外环境中安全导航(避障)。
🔬 方法详解
问题定义:人形机器人的安全控制问题,尤其是在使用学习得到的控制器时,难以保证在复杂环境下的安全性。现有的强化学习方法依赖于奖励函数的设计来嵌入安全约束,但这种方法缺乏形式化的安全保证,并且当需要修改约束时,需要重新训练整个模型。基于模型的方法,如控制障碍函数(CBF),可以提供形式化的安全保证,但它们需要精确的动力学模型,而获取精确的动力学模型对于复杂的人形机器人来说非常困难。
核心思路:SHIELD的核心思路是将学习到的控制器作为标称控制器,然后通过学习一个动力学残差模型来捕捉系统的不确定性。这个残差模型可以用来预测系统在标称控制器作用下的实际行为与理想行为之间的差异。然后,利用这个残差模型,结合随机控制障碍函数(CBF),设计一个安全层,该安全层可以在标称控制器的基础上进行微调,以确保系统在概率意义下满足安全约束。
技术框架:SHIELD的整体框架包含以下几个主要模块:1) 标称控制器:可以是任何学习到的控制器,例如强化学习控制器。2) 动力学残差模型:使用真实世界的数据训练一个生成式的随机动力学残差模型,用于捕捉系统的不确定性。3) 安全层:基于随机控制障碍函数(CBF)设计,利用动力学残差模型来预测系统未来的状态,并调整标称控制器的输出,以确保系统在概率意义下满足安全约束。
关键创新:SHIELD的关键创新在于将学习到的动力学残差模型与随机控制障碍函数相结合,从而在不依赖精确动力学模型的情况下,实现了人形机器人的安全控制。与传统的基于模型的方法相比,SHIELD不需要精确的动力学模型,因此更加鲁棒。与传统的强化学习方法相比,SHIELD可以提供形式化的安全保证,并且可以方便地修改安全约束。
关键设计:动力学残差模型采用生成式模型,例如变分自编码器(VAE)或生成对抗网络(GAN),以捕捉系统的不确定性。随机控制障碍函数的设计需要考虑动力学残差模型的不确定性,并确保在概率意义下满足安全约束。安全层的优化目标是最小化对标称控制器的干扰,同时确保安全约束得到满足。具体实现中,可以使用二次规划(QP)来求解安全层的控制输入。
🖼️ 关键图片
📊 实验亮点
SHIELD在Unitree G1人形机器人上进行了硬件实验,结果表明,SHIELD能够在使用标称(未知)RL控制器的前提下,实现安全导航和避障。实验在各种室内和室外环境中进行,包括走廊、房间和草地。实验结果表明,SHIELD能够有效地避免障碍物,并保持机器人的平衡。虽然论文中没有给出具体的性能数据,但实验结果表明SHIELD具有很强的实用性。
🎯 应用场景
SHIELD可应用于各种人形机器人的安全控制,尤其是在复杂和动态的环境中。例如,它可以用于人形机器人在家庭、工厂或户外环境中进行导航、操作或其他任务,同时确保机器人不会撞到人或物体,也不会跌倒。该研究的潜在价值在于提高人形机器人的安全性和可靠性,从而促进其在更广泛的领域中的应用。未来,SHIELD可以扩展到其他类型的机器人,例如无人机或自动驾驶汽车。
📄 摘要(原文)
Robot learning has produced remarkably effective ``black-box'' controllers for complex tasks such as dynamic locomotion on humanoids. Yet ensuring dynamic safety, i.e., constraint satisfaction, remains challenging for such policies. Reinforcement learning (RL) embeds constraints heuristically through reward engineering, and adding or modifying constraints requires retraining. Model-based approaches, like control barrier functions (CBFs), enable runtime constraint specification with formal guarantees but require accurate dynamics models. This paper presents SHIELD, a layered safety framework that bridges this gap by: (1) training a generative, stochastic dynamics residual model using real-world data from hardware rollouts of the nominal controller, capturing system behavior and uncertainties; and (2) adding a safety layer on top of the nominal (learned locomotion) controller that leverages this model via a stochastic discrete-time CBF formulation enforcing safety constraints in probability. The result is a minimally-invasive safety layer that can be added to the existing autonomy stack to give probabilistic guarantees of safety that balance risk and performance. In hardware experiments on an Unitree G1 humanoid, SHIELD enables safe navigation (obstacle avoidance) through varied indoor and outdoor environments using a nominal (unknown) RL controller and onboard perception.