Bridge the Gap: Enhancing Quadruped Locomotion with Vertical Ground Perturbations

📄 arXiv: 2510.13488v1 📥 PDF

作者: Maximilian Stasica, Arne Bick, Nico Bohlinger, Omid Mohseni, Max Johannes Alois Fritzsche, Clemens Hübler, Jan Peters, André Seyfarth

分类: cs.RO

发布日期: 2025-10-15


💡 一句话要点

提出基于强化学习的四足机器人控制方法,提升其在垂直地面扰动下的运动能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 强化学习 地面扰动 运动控制 PPO算法

📋 核心要点

  1. 四足机器人在崎岖地形表现出色,但在垂直地面扰动(如振荡表面)下的性能有待提高。
  2. 利用强化学习,在模拟的振荡桥上训练四足机器人,使其适应垂直扰动,提升运动鲁棒性。
  3. 实验表明,在振荡桥上训练的策略比在刚性表面训练的策略具有更好的稳定性和适应性。

📝 摘要(中文)

本研究旨在提升四足机器人在垂直地面扰动下的运动鲁棒性,针对现有方法在此方面的不足,提出了一种新颖的解决方案。具体而言,我们在一个模拟的振荡桥上,利用近端策略优化(PPO)算法训练Unitree Go2机器人。该桥梁是一个13.24米的钢筋混凝土结构,固有频率为2.0 Hz,用于模拟运动过程中的扰动。我们训练了15种不同的运动策略,结合了五种步态(小跑、慢步、并步、自由步、默认步态)和三种训练条件:刚性桥梁以及两种具有不同高度调节策略(相对于桥面或地面)的振荡桥梁设置。通过领域随机化,实现了策略到真实桥梁的零样本迁移。实验结果表明,在振荡桥梁上训练的策略比在刚性表面上训练的策略表现出更好的稳定性和适应性。该框架即使在没有事先桥梁暴露的情况下也能实现稳健的步态模式。这些发现突出了基于仿真的强化学习在改善四足机器人在动态地面扰动下的运动方面的潜力,为设计能够穿越振动环境的机器人提供了见解。

🔬 方法详解

问题定义:现有四足机器人在复杂地形(如崎岖地面)的运动能力已经取得了显著进展,但对于垂直方向的地面扰动,例如机器人行走在振动桥面时,其运动控制策略的鲁棒性和适应性仍然不足。现有的控制方法难以应对这种动态变化的环境,容易导致机器人失去平衡或运动效率降低。

核心思路:本研究的核心思路是利用强化学习(RL)算法,在模拟环境中训练四足机器人,使其能够适应垂直方向的地面扰动。通过让机器人在模拟的振荡桥面上进行学习,使其能够学习到应对这种扰动的运动策略。这种方法的核心在于,通过大量的模拟训练,使机器人能够提前适应各种可能的扰动情况,从而提高其在真实环境中的鲁棒性。

技术框架:整体框架包括以下几个主要模块:1) 环境模拟:使用MuJoCo物理引擎构建一个包含振荡桥梁的仿真环境,精确模拟桥梁的振动特性。2) 强化学习算法:采用近端策略优化(PPO)算法作为主要的强化学习算法,用于训练机器人的运动策略。3) 步态生成:使用五种不同的步态(小跑、慢步、并步、自由步、默认步态)作为机器人的运动模式。4) 奖励函数设计:设计合适的奖励函数,鼓励机器人保持平衡、稳定前进,并惩罚不期望的行为。5) 领域随机化:通过对仿真环境的参数进行随机化,例如桥梁的振动频率、幅度等,提高策略的泛化能力,实现零样本迁移。

关键创新:该研究的关键创新在于:1) 针对垂直地面扰动的强化学习训练:首次针对四足机器人在垂直地面扰动下的运动控制问题,提出了基于强化学习的解决方案。2) 振荡桥梁的模拟与训练:构建了一个能够模拟真实振荡桥梁的仿真环境,并在此基础上进行强化学习训练。3) 领域随机化策略:通过领域随机化,实现了策略从仿真环境到真实环境的零样本迁移。

关键设计:在强化学习训练过程中,奖励函数的设计至关重要。奖励函数包括以下几个部分:1) 前进奖励:鼓励机器人向前移动。2) 平衡奖励:惩罚机器人身体的倾斜。3) 能量消耗惩罚:惩罚机器人的能量消耗,鼓励其采用更节能的运动方式。4) 高度调节策略:针对振荡桥梁,设计了两种不同的高度调节策略:一种是相对于桥面保持恒定高度,另一种是相对于地面保持恒定高度。这些策略的选择会影响机器人的运动表现。

📊 实验亮点

实验结果表明,在振荡桥梁上训练的策略比在刚性表面上训练的策略表现出更好的稳定性和适应性。具体而言,在振荡桥梁上训练的机器人能够更平稳地通过桥梁,并且能够更好地抵抗桥梁的振动。即使在没有事先桥梁暴露的情况下,该框架也能实现稳健的步态模式,证明了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于搜救机器人、勘探机器人等领域,使其能够在地震、桥梁坍塌等复杂环境下稳定运动,执行搜索、救援、勘探等任务。此外,该方法还可以应用于工业机器人,使其能够在振动环境下进行精确操作,提高生产效率。未来,该研究有望推动四足机器人在更多复杂和动态环境中的应用。

📄 摘要(原文)

Legged robots, particularly quadrupeds, excel at navigating rough terrains, yet their performance under vertical ground perturbations, such as those from oscillating surfaces, remains underexplored. This study introduces a novel approach to enhance quadruped locomotion robustness by training the Unitree Go2 robot on an oscillating bridge - a 13.24-meter steel-and-concrete structure with a 2.0 Hz eigenfrequency designed to perturb locomotion. Using Reinforcement Learning (RL) with the Proximal Policy Optimization (PPO) algorithm in a MuJoCo simulation, we trained 15 distinct locomotion policies, combining five gaits (trot, pace, bound, free, default) with three training conditions: rigid bridge and two oscillating bridge setups with differing height regulation strategies (relative to bridge surface or ground). Domain randomization ensured zero-shot transfer to the real-world bridge. Our results demonstrate that policies trained on the oscillating bridge exhibit superior stability and adaptability compared to those trained on rigid surfaces. Our framework enables robust gait patterns even without prior bridge exposure. These findings highlight the potential of simulation-based RL to improve quadruped locomotion during dynamic ground perturbations, offering insights for designing robots capable of traversing vibrating environments.