High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures

📄 arXiv: 2504.17857v3 📥 PDF

作者: AJ Miller, Fangzhou Yu, Michael Brauckmann, Farbod Farshidian

分类: cs.LG, cs.RO

发布日期: 2025-04-24 (更新: 2025-07-03)


💡 一句话要点

在Spot机器人上实现高性能强化学习:利用分布度量优化仿真参数

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 机器人控制 sim2real 分布差异 参数优化

📋 核心要点

  1. 现有强化学习方法在机器人上的部署面临sim2real差距,即仿真环境与真实环境的差异导致策略性能下降。
  2. 该论文利用Wasserstein距离和最大均值差异量化sim2real差距,并将其作为优化仿真参数的评分函数。
  3. 实验结果表明,该方法能够训练出高性能的强化学习策略,显著提升Spot机器人的运动速度和鲁棒性。

📝 摘要(中文)

本研究概述了在波士顿动力Spot机器人上部署高性能强化学习策略的技术细节,该策略通过Spot RL Researcher Development Kit实现对底层电机的访问。这是首次公开展示端到端的强化学习策略在Spot硬件上的部署,训练代码通过Nvidia IsaacLab公开,部署代码通过波士顿动力公开。我们利用Wasserstein距离和最大均值差异来量化硬件和仿真数据之间的分布差异,以此衡量sim2real差距。我们将这些度量作为协方差矩阵自适应进化策略的评分函数,以优化Spot中未知或难以测量的仿真参数。我们的建模和训练程序产生了高质量的强化学习策略,能够实现多种步态,包括飞行阶段。我们部署的策略能够实现超过5.2米/秒的运动速度,是Spot默认控制器最大速度的三倍以上,并且具有对湿滑表面的鲁棒性、抗干扰能力以及前所未有的敏捷性。我们详细介绍了我们的方法并发布了代码,以支持未来基于底层API在Spot上的工作。

🔬 方法详解

问题定义:现有强化学习方法在机器人上的应用面临着严重的sim2real问题。由于仿真环境与真实环境存在差异,例如摩擦系数、电机响应等,导致在仿真环境中训练的策略在真实机器人上表现不佳。手动调整仿真参数以匹配真实环境既耗时又困难,且难以精确建模所有因素。

核心思路:该论文的核心思路是利用分布差异度量(Wasserstein距离和最大均值差异)来量化仿真数据和真实数据之间的差异,并将其作为优化仿真参数的指标。通过优化仿真参数,缩小sim2real差距,从而提高强化学习策略在真实机器人上的性能。

技术框架:整体框架包含以下几个主要阶段:1) 在仿真环境中训练强化学习策略;2) 在真实机器人上收集少量数据;3) 利用Wasserstein距离和最大均值差异计算仿真数据和真实数据之间的分布差异;4) 使用协方差矩阵自适应进化策略(CMA-ES)优化仿真参数,以最小化分布差异;5) 使用优化后的仿真参数重新训练强化学习策略;6) 在真实机器人上部署并测试策略。

关键创新:该论文的关键创新在于将分布差异度量与进化策略相结合,自动优化仿真参数,从而缩小sim2real差距。与传统的手动调整参数或领域自适应方法相比,该方法更加高效和自动化,并且能够处理复杂的仿真环境。

关键设计:论文使用Wasserstein距离和最大均值差异作为分布差异的度量。Wasserstein距离能够衡量两个分布之间的最优传输代价,而最大均值差异则衡量两个分布在再生核希尔伯特空间中的距离。CMA-ES被用于优化仿真参数,因为它是一种高效的无梯度优化算法,能够处理高维参数空间。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著提升Spot机器人的运动性能。通过优化仿真参数,机器人能够实现超过5.2米/秒的运动速度,是Spot默认控制器最大速度的三倍以上。此外,该方法还提高了机器人对湿滑表面的鲁棒性和抗干扰能力,使其能够适应更复杂的环境。

🎯 应用场景

该研究成果可应用于各种机器人控制任务,尤其是在难以精确建模环境参数的场景下。例如,可以在地形复杂的野外环境中部署机器人,或是在存在未知干扰的工业环境中进行自动化操作。该方法能够显著降低机器人部署的成本和难度,并提高其适应性和鲁棒性,具有广泛的应用前景。

📄 摘要(原文)

This work presents an overview of the technical details behind a high performance reinforcement learning policy deployment with the Spot RL Researcher Development Kit for low level motor access on Boston Dynamics Spot. This represents the first public demonstration of an end to end end reinforcement learning policy deployed on Spot hardware with training code publicly available through Nvidia IsaacLab and deployment code available through Boston Dynamics. We utilize Wasserstein Distance and Maximum Mean Discrepancy to quantify the distributional dissimilarity of data collected on hardware and in simulation to measure our sim2real gap. We use these measures as a scoring function for the Covariance Matrix Adaptation Evolution Strategy to optimize simulated parameters that are unknown or difficult to measure from Spot. Our procedure for modeling and training produces high quality reinforcement learning policies capable of multiple gaits, including a flight phase. We deploy policies capable of over 5.2ms locomotion, more than triple Spots default controller maximum speed, robustness to slippery surfaces, disturbance rejection, and overall agility previously unseen on Spot. We detail our method and release our code to support future work on Spot with the low level API.