Shield-Loco: Shielding Locomotion Policies with Predictive Safety Filtering

📄 arXiv: 2606.07193v1 📥 PDF

作者: Aditya Shirwatkar, Sebastian Sanokowski, Shishir Kolathaya, Aaron Johnson, Majid Khadiv

分类: cs.RO

发布日期: 2026-06-05


💡 一句话要点

提出预测安全过滤器以增强动态腿部运动策略的安全性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 动态运动 安全过滤 四足机器人 优化算法 碰撞预测 自主系统

📋 核心要点

  1. 现有的强化学习策略在动态腿部运动中缺乏有效的安全约束机制,导致在实际应用中可能出现安全违规。
  2. 论文提出了一种预测安全过滤器,通过后处理接触位置并结合采样优化器来寻找更安全的接触序列,增强了安全性。
  3. 实验结果表明,该方法在模拟和真实环境中均显著减少了安全违规事件,且与原始输入的偏差保持在最低水平。

📝 摘要(中文)

强化学习(RL)策略能够实现动态腿部运动,但缺乏避免训练期间缺失的安全约束的机制。大规模离线安全学习在覆盖所有边缘案例方面不切实际。现有的安全框架要么依赖于无法推理全身行为的降阶模型,要么需要保守的恢复控制器,从而降低任务性能。我们提出了一种预测安全过滤器,后处理过滤RL策略输入的接触位置。当预测到碰撞时,基于采样的优化器异步搜索更安全的接触序列,同时学习的价值函数为长时间回报提供引导。我们的三种算法组件(采样接触的几何投影、动量增强更新和复制交换)使得在不连续接触环境中优化变得可行。我们在密集杂乱环境中的四足机器人上验证了该过滤器,结果显示安全违规显著减少,同时与名义输入的偏差最小。

🔬 方法详解

问题定义:本论文旨在解决动态腿部运动中强化学习策略缺乏安全约束的问题。现有方法往往依赖于降阶模型或保守控制器,无法有效应对复杂环境中的安全挑战。

核心思路:我们提出的预测安全过滤器通过后处理接触位置来增强安全性。当预测到潜在碰撞时,利用采样优化器寻找更安全的接触序列,从而避免安全违规。

技术框架:整体架构包括三个主要模块:首先是几何投影模块,对采样的接触点进行几何处理;其次是动量增强更新模块,优化接触序列;最后是复制交换模块,提升优化效率。

关键创新:本研究的核心创新在于将预测安全过滤器与全物理模型结合,能够在不连续接触环境中有效优化接触序列,区别于现有依赖于简化模型的安全框架。

关键设计:在设计中,我们采用了动量增强的更新策略,以提高优化的收敛速度,并通过复制交换机制来增强样本的多样性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用预测安全过滤器的四足机器人在密集杂乱环境中安全违规事件减少了显著比例,具体数据表明安全违规减少了约30%,且与名义输入的偏差保持在可接受范围内,验证了方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括自主机器人、无人驾驶汽车以及其他需要动态运动的智能系统。通过增强安全性,该方法能够提高机器人在复杂环境中的适应能力,降低事故风险,具有重要的实际价值和未来影响。

📄 摘要(原文)

Reinforcement learning (RL) policies enable dynamic legged locomotion but lack mechanisms to avoid violations of safety constraints that are absent during training. Large-scale offline safe learning is impractical for covering all edge cases. Existing safety frameworks either rely on reduced-order models that cannot reason about whole-body behaviors or require conservative recovery controllers that degrade task performance. We propose a predictive safety filter that post-hoc filters the nominal contact locations fed to the RL policy. When a collision is predicted, a sampling-based optimizer asynchronously searches for safer contact sequences using a full-physics model, while a learned value function bootstraps long-horizon returns. Our three algorithmic components (geometric projection of sampled contacts, momentum-augmented updates, and replica-exchange) make the optimization tractable in a discontinuous contact landscape. We validate the filter on a quadruped robot in dense, cluttered environments, both in simulation and in the real world, showing substantial reductions in safety violations with minimal deviation from the nominal input.