SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion

📄 arXiv: 2603.17092v1 📥 PDF

作者: Elham Daneshmand, Shafeef Omar, Glen Berseth, Majid Khadiv, Hsiu-Chin Lin

分类: cs.RO

发布日期: 2026-03-17


💡 一句话要点

提出SLowRL,通过低秩适应和安全强化学习实现四足机器人运动策略的安全高效迁移。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 低秩适应 安全强化学习 四足机器人 Sim-to-Real 策略迁移 运动控制

📋 核心要点

  1. 仿真到真实环境的迁移学习面临性能下降和硬件损坏风险,直接在硬件上微调强化学习策略效率低且不安全。
  2. SLowRL结合低秩适应(LoRA)和恢复策略,在训练时强制执行安全约束,实现安全高效的策略微调。
  3. 实验表明,SLowRL在真实机器人上微调时间减少46.5%,安全违规接近于零,且秩为1的LoRA足以恢复预训练性能。

📝 摘要(中文)

本文提出了一种名为SLowRL的框架,旨在解决动态运动任务中强化学习策略从仿真到真实环境迁移时性能下降的问题。SLowRL结合了低秩适应(LoRA)和基于恢复策略的训练时安全约束,从而能够安全高效地在真实硬件上微调仿真环境中学习到的策略。该方法在Unitree Go2四足机器人上进行了跳跃和跑步任务的评估。实验结果表明,与标准的近端策略优化(PPO)基线相比,SLowRL将微调时间减少了46.5%,并且几乎没有安全违规。值得注意的是,仅使用秩为1的适应就足以在现实世界中恢复预训练的性能,同时保持稳定和安全的真实环境微调。这些结果证明了安全、高效微调在动态真实机器人应用中的实用性。

🔬 方法详解

问题定义:论文旨在解决强化学习策略从仿真环境迁移到真实四足机器人时,由于仿真-真实差距导致的性能下降问题。直接在真实机器人上微调策略存在安全风险(可能导致机械故障)和样本效率低下的问题,需要一种安全且高效的微调方法。

核心思路:论文的核心思路是利用低秩适应(LoRA)来高效地微调策略,同时通过训练时的安全约束来保证微调过程的安全性。LoRA通过只训练少量参数来适应预训练模型,从而提高样本效率。安全约束则通过一个恢复策略来实现,该策略在策略违反安全约束时介入,防止机器人进入危险状态。

技术框架:SLowRL框架包含以下几个主要组成部分:1) 在仿真环境中预训练的强化学习策略;2) 低秩适应(LoRA)模块,用于高效地微调策略;3) 安全约束模块,用于定义机器人的安全状态;4) 恢复策略,用于在策略违反安全约束时介入。整个流程如下:首先在仿真环境中训练一个初始策略,然后使用LoRA在真实机器人上微调该策略,在微调过程中,安全约束模块会监测机器人的状态,如果策略违反了安全约束,则恢复策略会介入,防止机器人进入危险状态。

关键创新:SLowRL的关键创新在于将低秩适应(LoRA)与训练时的安全约束相结合,从而实现了安全高效的强化学习策略微调。与传统的微调方法相比,LoRA只需要训练少量参数,从而提高了样本效率。与传统的安全强化学习方法相比,SLowRL的恢复策略可以在策略违反安全约束时及时介入,从而保证了微调过程的安全性。

关键设计:论文中,LoRA的具体实现方式是在策略网络的某些层中插入低秩矩阵,只训练这些低秩矩阵的参数。安全约束的具体实现方式是定义一个安全状态集合,并使用一个分类器来判断机器人的当前状态是否安全。恢复策略的具体实现方式是训练一个单独的策略,该策略的目标是使机器人从不安全状态恢复到安全状态。论文中使用了PPO算法作为基础的强化学习算法,并对PPO算法进行了修改,使其能够支持LoRA和安全约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SLowRL在Unitree Go2四足机器人上,与标准的PPO基线相比,微调时间减少了46.5%,并且几乎没有安全违规。更重要的是,仅使用秩为1的LoRA就足以在真实世界中恢复预训练的性能,同时保持稳定和安全的真实环境微调。这些结果验证了SLowRL在真实机器人应用中的有效性和实用性。

🎯 应用场景

SLowRL可应用于各种需要将强化学习策略从仿真环境迁移到真实机器人上的场景,例如四足机器人运动控制、无人机飞行控制、机械臂操作等。该方法可以显著降低策略迁移的成本和风险,提高机器人的自主性和适应性,加速机器人技术在工业、物流、医疗等领域的应用。

📄 摘要(原文)

Sim-to-real transfer of locomotion policies often leads to performance degradation due to the inevitable sim-to-real gap. Naively fine-tuning these policies directly on hardware is problematic, as it poses risks of mechanical failure and suffers from high sample inefficiency. In this paper, we address the challenge of safely and efficiently fine-tuning reinforcement learning (RL) policies for dynamic locomotion tasks. Specifically, we focus on fine-tuning policies learned in simulation directly on hardware, while explicitly enforcing safety constraints. In doing so, we introduce SLowRL, a framework that combines Low-Rank Adaptation (LoRA) with training-time safety enforcement via a recovery policy. We evaluate our method both in simulation and on a real Unitree Go2 quadruped robot for jump and trot tasks. Experimental results show that our method achieves a $46.5\%$ reduction in fine-tuning time and near-zero safety violations compared to standard proximal policy optimization (PPO) baselines. Notably, we find that a rank-1 adaptation alone is sufficient to recover pre-trained performance in the real world, while maintaining stable and safe real-world fine-tuning. These results demonstrate the practicality of safe, efficient fine-tuning for dynamic real-world robotic applications.