AllGaits: Learning All Quadruped Gaits and Transitions
作者: Guillaume Bellegarda, Milad Shafiee, Auke Ijspeert
分类: cs.RO
发布日期: 2024-11-07
💡 一句话要点
提出AllGaits框架,学习四足机器人所有步态及过渡策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 步态控制 深度强化学习 中央模式发生器 能量效率
📋 核心要点
- 现有四足机器人步态控制方法难以实现多种步态的平滑过渡,且缺乏对能量效率的系统性优化。
- 该论文提出AllGaits框架,利用深度强化学习训练策略,调节中央模式发生器参数,实现多种步态的生成与切换。
- 实验结果表明,该方法能够生成9种典型四足动物步态,并具备对未见步态的泛化能力和对腿部故障的鲁棒性。
📝 摘要(中文)
本文提出了一个框架,用于学习能够生成所有四足动物步态和步态过渡的单一策略。该框架包含一个通过深度强化学习(DRL)训练的策略,用于调节抽象振荡器系统(即中央模式发生器,CPG)的参数,其输出通过模式形成层映射到关节指令,该层设置步态风格,即身体高度、摆动脚离地高度和脚部偏移。通过改变不同振荡器之间的耦合来形成不同的步态,用户可以在任何速度下即时选择这些步态。利用该框架,我们从运输成本(COT),即能量效率的角度,系统地研究了在什么速度下应该使用哪种步态,以及何时应该发生步态过渡。此外,我们注意到,为了保持最节能的运动,步态风格如何随每种步态的运动速度而变化。虽然目前最流行的步态(小跑)并没有产生最低的COT,但我们发现,考虑不同的相互依赖的指标,如平均基速度和关节加速度,会导致与最小化COT不同的“最佳”步态。我们在各种硬件实验中部署了我们的控制器,展示了所有9种典型的四足动物步态,并展示了对训练期间未见步态的泛化能力,以及对腿部故障的鲁棒性。视频结果见https://youtu.be/OLoWSX_R868。
🔬 方法详解
问题定义:现有四足机器人的步态控制方法通常针对特定步态进行优化,难以实现多种步态之间的平滑过渡,并且缺乏对能量效率的系统性分析和优化。此外,如何根据不同的运动速度和环境条件选择合适的步态也是一个挑战。
核心思路:该论文的核心思路是利用深度强化学习(DRL)训练一个单一策略,该策略能够调节中央模式发生器(CPG)的参数,从而生成多种不同的步态。通过改变CPG中不同振荡器之间的耦合,可以实现步态的切换。这种方法允许在任何速度下即时选择步态,并能够根据能量效率等指标进行优化。
技术框架:AllGaits框架主要包含以下几个模块:1) 基于深度强化学习的策略网络:用于学习步态控制策略,输入包括机器人的状态信息(如速度、关节角度等),输出为CPG的参数。2) 中央模式发生器(CPG):一个抽象的振荡器系统,用于生成周期性的运动模式。通过调节CPG的参数,可以改变步态的频率、幅度等。3) 模式形成层:将CPG的输出映射到关节指令,并设置步态风格,如身体高度、摆动脚离地高度和脚部偏移。4) 奖励函数:用于指导DRL策略的学习,包括能量效率、运动速度、稳定性等指标。
关键创新:该论文的关键创新在于:1) 提出了一个能够生成所有四足动物步态和步态过渡的单一策略。2) 系统地研究了在什么速度下应该使用哪种步态,以及何时应该发生步态过渡,从能量效率的角度进行了优化。3) 考虑了多种相互依赖的指标,如平均基速度和关节加速度,从而找到了更优的步态选择策略。
关键设计:在DRL训练中,使用了Actor-Critic算法,奖励函数的设计综合考虑了能量消耗(COT)、运动速度、关节加速度等因素。CPG采用了Hodgkin-Huxley模型,通过调节模型的参数(如振荡器的频率、幅度、相位差等)来控制步态。模式形成层使用线性映射将CPG的输出转换为关节指令,并可以根据需要调整步态风格。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够生成9种典型的四足动物步态,包括行走、小跑、奔跑、跳跃等。此外,该方法还展示了对训练期间未见步态的泛化能力,以及对腿部故障的鲁棒性。在硬件实验中,机器人能够在不同的地形上稳定运动,并能够根据速度和地形条件自动选择合适的步态。
🎯 应用场景
该研究成果可应用于各种四足机器人,例如搜救机器人、巡检机器人、物流机器人等。通过学习多种步态和步态过渡策略,机器人可以适应不同的地形和任务需求,提高运动效率和鲁棒性。此外,该研究对于理解动物运动控制机制也具有一定的参考价值。
📄 摘要(原文)
We present a framework for learning a single policy capable of producing all quadruped gaits and transitions. The framework consists of a policy trained with deep reinforcement learning (DRL) to modulate the parameters of a system of abstract oscillators (i.e. Central Pattern Generator), whose output is mapped to joint commands through a pattern formation layer that sets the gait style, i.e. body height, swing foot ground clearance height, and foot offset. Different gaits are formed by changing the coupling between different oscillators, which can be instantaneously selected at any velocity by a user. With this framework, we systematically investigate which gait should be used at which velocity, and when gait transitions should occur from a Cost of Transport (COT), i.e. energy-efficiency, point of view. Additionally, we note how gait style changes as a function of locomotion speed for each gait to keep the most energy-efficient locomotion. While the currently most popular gait (trot) does not result in the lowest COT, we find that considering different co-dependent metrics such as mean base velocity and joint acceleration result in different `optimal' gaits than those that minimize COT. We deploy our controller in various hardware experiments, showing all 9 typical quadruped animal gaits, and demonstrate generalizability to unseen gaits during training, and robustness to leg failures. Video results can be found at https://youtu.be/OLoWSX_R868.