Sampling Strategies for Robust Universal Quadrupedal Locomotion Policies
作者: David Rytz, Kim Tien Ly, Ioannis Havoutis
分类: cs.RO
发布日期: 2025-10-08
💡 一句话要点
提出基于配置采样的通用四足机器人鲁棒运动策略,实现零样本迁移
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 强化学习 运动控制 Sim-to-Real 参数随机化
📋 核心要点
- 现有四足机器人运动策略难以泛化到不同物理参数和控制增益的机器人,鲁棒性不足。
- 通过对机器人物理参数和关节增益进行采样,训练单个强化学习策略,使其能够适应多种配置。
- 实验表明,显著的关节控制器增益随机化对于实现从仿真到现实的鲁棒迁移至关重要。
📝 摘要(中文)
本研究关注配置变化的采样策略,旨在为四足机器人生成鲁棒的通用运动策略。我们研究了物理机器人参数和关节比例-微分增益的采样对训练单个强化学习策略的影响,该策略可以推广到多个参数配置。比较了三种基本的关节增益采样策略:(1) 使用质量到增益的线性函数和多项式函数映射的参数采样,(2) 基于性能的自适应滤波,以及 (3) 均匀随机采样。我们通过使用标称先验和参考模型来偏置配置,从而提高了策略的鲁棒性。所有训练都在RaiSim上进行,在各种不同的四足机器人上进行了仿真测试,并使用ANYmal四足机器人进行了零样本硬件部署。与多个基线实现相比,我们的结果表明,需要显著的关节控制器增益随机化才能鲁棒地弥合仿真到现实的差距。
🔬 方法详解
问题定义:现有四足机器人运动控制方法通常针对特定机器人和环境进行优化,难以适应不同物理参数(如质量、惯性)和控制增益的机器人。这导致了在仿真环境中训练的策略难以直接迁移到真实机器人上,即存在严重的“仿真到现实”(Sim-to-Real)差距。现有方法缺乏足够的鲁棒性和泛化能力。
核心思路:该论文的核心思路是通过在训练过程中对机器人物理参数和关节控制增益进行随机采样,从而使强化学习策略能够适应多种不同的机器人配置。这种方法旨在提高策略的鲁棒性,使其能够更好地应对真实世界中机器人参数的不确定性和变化。通过暴露策略于各种不同的配置,可以有效地缩小仿真和现实之间的差距。
技术框架:整体框架包括以下几个主要步骤:1) 定义机器人物理参数和关节控制增益的采样空间。2) 设计不同的采样策略,包括基于函数映射、自适应滤波和均匀随机采样。3) 使用强化学习算法(具体算法未知,论文中未明确提及)在RaiSim仿真环境中训练策略。4) 在不同的仿真机器人上评估策略的泛化能力。5) 将训练好的策略零样本迁移到ANYmal真实机器人上进行测试。
关键创新:该论文的关键创新在于对关节控制增益采样策略的比较和分析,以及对标称先验和参考模型的使用,以提高策略的鲁棒性。通过实验证明,适当的关节控制增益随机化对于实现成功的Sim-to-Real迁移至关重要。此外,该研究还探索了不同的采样策略对策略性能的影响。
关键设计:论文比较了三种关节增益采样策略:1) 基于质量到增益的线性/多项式函数映射,这种方法试图建立物理参数和控制增益之间的关系。2) 基于性能的自适应滤波,这种方法根据策略在训练过程中的表现动态调整采样分布。3) 均匀随机采样,这是一种简单但有效的基线方法。此外,论文还使用了标称先验和参考模型来偏置采样分布,以提高策略的鲁棒性。具体的强化学习算法、网络结构和损失函数等细节在论文中未明确说明,属于未知信息。
📊 实验亮点
实验结果表明,适当的关节控制器增益随机化对于实现鲁棒的Sim-to-Real迁移至关重要。该方法在多种仿真四足机器人上表现出良好的泛化能力,并成功零样本部署到ANYmal真实机器人上。与基线方法相比,该方法能够显著提高策略的鲁棒性和适应性。
🎯 应用场景
该研究成果可广泛应用于四足机器人的运动控制领域,尤其是在需要机器人适应不同环境和任务的场景中。例如,搜救机器人、巡检机器人等可以在未知或变化的环境中稳定运动。该方法有助于降低四足机器人部署的难度和成本,加速其在各行业的应用。
📄 摘要(原文)
This work focuses on sampling strategies of configuration variations for generating robust universal locomotion policies for quadrupedal robots. We investigate the effects of sampling physical robot parameters and joint proportional-derivative gains to enable training a single reinforcement learning policy that generalizes to multiple parameter configurations. Three fundamental joint gain sampling strategies are compared: parameter sampling with (1) linear and polynomial function mappings of mass-to-gains, (2) performance-based adaptive filtering, and (3) uniform random sampling. We improve the robustness of the policy by biasing the configurations using nominal priors and reference models. All training was conducted on RaiSim, tested in simulation on a range of diverse quadrupeds, and zero-shot deployed onto hardware using the ANYmal quadruped robot. Compared to multiple baseline implementations, our results demonstrate the need for significant joint controller gains randomization for robust closing of the sim-to-real gap.