Bridge the Gap: Enhancing Quadruped Locomotion with Vertical Ground Perturbations
作者: Maximilian Stasica, Arne Bick, Nico Bohlinger, Omid Mohseni, Max Johannes Alois Fritzsche, Clemens Hübler, Jan Peters, André Seyfarth
分类: cs.RO
发布日期: 2025-10-15
💡 一句话要点
提出基于强化学习的四足机器人控制方法,提升其在垂直地面扰动下的运动能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 四足机器人 强化学习 垂直地面扰动 运动控制 PPO算法
📋 核心要点
- 四足机器人在崎岖地形表现出色,但在垂直地面扰动(如振荡表面)下的性能仍有待提高。
- 利用强化学习,在模拟的振荡桥上训练四足机器人,使其适应垂直扰动,提升运动鲁棒性。
- 实验表明,在振荡桥上训练的策略比在刚性表面训练的策略具有更好的稳定性和适应性。
📝 摘要(中文)
本研究旨在提升四足机器人在垂直地面扰动下的运动能力,针对现有方法在此方面的不足,提出了一种新颖的方法。具体而言,我们在一个模拟的振荡桥上,利用近端策略优化(PPO)算法训练Unitree Go2机器人。该桥梁是一个13.24米的钢筋混凝土结构,固有频率为2.0 Hz,用于模拟运动过程中的扰动。我们训练了15种不同的运动策略,结合了五种步态(小跑、慢步、跳跃、自由步态、默认步态)和三种训练条件:刚性桥梁以及两种具有不同高度调节策略(相对于桥面或地面)的振荡桥梁设置。通过领域随机化,确保了策略能够零样本迁移到真实桥梁上。实验结果表明,在振荡桥梁上训练的策略比在刚性表面上训练的策略表现出更好的稳定性和适应性。该框架即使在没有事先桥梁经验的情况下也能实现稳健的步态模式。这些发现突出了基于仿真的强化学习在改善四足机器人在动态地面扰动下的运动方面的潜力,为设计能够穿越振动环境的机器人提供了见解。
🔬 方法详解
问题定义:现有四足机器人在崎岖地形导航方面表现良好,但对于垂直方向的地面扰动,例如振动或不平整的表面,其运动性能和稳定性仍然面临挑战。现有的控制方法可能无法很好地适应这种动态变化的环境,导致机器人运动不稳定甚至跌倒。
核心思路:本研究的核心思路是通过强化学习(RL)使四足机器人学习适应垂直地面扰动。具体来说,通过在模拟的振荡桥上训练机器人,让其接触各种频率和幅度的垂直扰动,从而学习到更鲁棒的运动策略。这种方法的核心在于让机器人主动适应环境,而不是被动地依赖预先设定的运动模式。
技术框架:整体框架包括以下几个主要步骤:1) 在MuJoCo物理引擎中搭建振荡桥梁的仿真环境,并模拟Unitree Go2四足机器人。2) 使用近端策略优化(PPO)算法训练机器人的运动策略。3) 设计不同的训练条件,包括刚性桥梁和两种不同高度调节策略的振荡桥梁。4) 通过领域随机化技术,提高策略的泛化能力,使其能够零样本迁移到真实桥梁上。5) 在真实桥梁上进行实验验证,评估训练策略的性能。
关键创新:该研究的关键创新在于将强化学习应用于四足机器人在垂直地面扰动下的运动控制。与传统的基于模型的控制方法相比,强化学习能够让机器人自主学习适应复杂环境,无需精确的动力学模型。此外,通过在模拟环境中进行训练,可以大大降低实验成本和风险。
关键设计:在训练过程中,使用了PPO算法作为强化学习算法。奖励函数的设计至关重要,需要综合考虑机器人的运动速度、稳定性、能量消耗等因素。领域随机化包括对桥梁的振动频率、幅度、摩擦系数等参数进行随机化,以提高策略的泛化能力。此外,还设计了两种不同的高度调节策略,一种是相对于桥面,另一种是相对于地面,以探索不同的控制方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在振荡桥梁上训练的策略在真实桥梁上表现出更好的稳定性和适应性。与在刚性桥梁上训练的策略相比,在振荡桥梁上训练的策略能够更有效地克服垂直扰动,保持机器人的平衡和运动速度。即使在没有事先桥梁经验的情况下,该框架也能实现稳健的步态模式。
🎯 应用场景
该研究成果可应用于搜救、勘探等领域,提升四足机器人在复杂、动态环境下的作业能力。例如,在地震灾区,机器人可以穿越倒塌建筑物的废墟,进行搜索和救援工作。在工业环境中,机器人可以用于检测和维护振动设备,提高生产效率和安全性。未来,该技术有望推广到其他类型的机器人,例如人形机器人和轮式机器人。
📄 摘要(原文)
Legged robots, particularly quadrupeds, excel at navigating rough terrains, yet their performance under vertical ground perturbations, such as those from oscillating surfaces, remains underexplored. This study introduces a novel approach to enhance quadruped locomotion robustness by training the Unitree Go2 robot on an oscillating bridge - a 13.24-meter steel-and-concrete structure with a 2.0 Hz eigenfrequency designed to perturb locomotion. Using Reinforcement Learning (RL) with the Proximal Policy Optimization (PPO) algorithm in a MuJoCo simulation, we trained 15 distinct locomotion policies, combining five gaits (trot, pace, bound, free, default) with three training conditions: rigid bridge and two oscillating bridge setups with differing height regulation strategies (relative to bridge surface or ground). Domain randomization ensured zero-shot transfer to the real-world bridge. Our results demonstrate that policies trained on the oscillating bridge exhibit superior stability and adaptability compared to those trained on rigid surfaces. Our framework enables robust gait patterns even without prior bridge exposure. These findings highlight the potential of simulation-based RL to improve quadruped locomotion during dynamic ground perturbations, offering insights for designing robots capable of traversing vibrating environments.