Discovery of skill switching criteria for learning agile quadruped locomotion
作者: Wanming Yu, Fernando Acero, Vassil Atanassov, Chuanyu Yang, Ioannis Havoutis, Dimitrios Kanoulas, Zhibin Li
分类: cs.RO
发布日期: 2025-02-10
💡 一句话要点
提出一种分层强化学习框架,实现四足机器人多技能敏捷运动的自动切换与稳定控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 强化学习 多技能学习 运动控制 步态切换
📋 核心要点
- 现有四足机器人运动控制方法难以在不同步态间平滑切换,限制了其在复杂环境下的适应性。
- 论文提出分层强化学习框架,上层策略根据目标距离动态调整底层步态策略的权重,实现自然切换。
- 实验表明,该方法在模拟和真实机器人上均能实现小跑、跳跃、疾驰等步态的平滑切换和故障恢复。
📝 摘要(中文)
本文提出了一种分层学习与优化框架,用于学习和实现协调良好的多技能运动。学习到的多技能策略能够在追踪任意位置目标时自动、自然地切换技能,并迅速从失败中恢复。该框架由深度强化学习过程和优化过程组成。首先,将接触模式纳入奖励项,用于学习不同类型的步态作为单独的策略,而无需任何其他参考。然后,学习一个更高层次的策略,为各个策略生成权重,从而在目标跟踪任务中组合多技能运动。技能根据与目标的距离自动、自然地切换。技能切换的适当距离被纳入奖励计算中,用于学习高层策略,并通过外部优化循环随着学习的进行而更新。我们首先在模拟的Unitree A1四足机器人上展示了在综合任务中成功的多技能运动。我们还在现实世界中部署了学习到的策略,展示了小跑、跳跃、疾驰及其随着目标位置变化的自然过渡。此外,学习到的策略可以随时对意外失败做出反应,迅速恢复并成功恢复运动。与在现实世界中未能过渡到疾驰的单一技能之间的离散切换相比,我们提出的方法实现了所有学习到的敏捷技能,并具有更平滑和更连续的技能过渡。
🔬 方法详解
问题定义:现有的四足机器人运动控制方法,尤其是在多技能(例如,不同步态)的切换方面,通常依赖于离散的切换规则,导致运动不流畅、适应性差,并且难以从意外失败中恢复。这些方法往往需要人工设计复杂的切换逻辑,泛化能力有限。因此,需要一种能够自动学习技能切换策略,实现平滑过渡和快速恢复的控制框架。
核心思路:本文的核心思路是采用分层强化学习的方法,将运动控制问题分解为步态生成和步态切换两个层次。底层使用强化学习训练不同的步态策略,上层策略则学习如何根据目标位置等信息,动态地调整底层步态策略的权重,从而实现平滑的步态切换。这种分层结构使得系统能够自动学习最优的切换策略,并具备更强的适应性和鲁棒性。
技术框架:该框架包含两个主要模块:1) 基于强化学习的步态策略学习模块:该模块使用深度强化学习算法(具体算法未知)训练多个独立的步态策略,例如小跑、跳跃、疾驰等。每个步态策略都以机器人状态和目标位置作为输入,输出相应的动作指令。奖励函数的设计至关重要,需要包含接触模式等信息,以鼓励机器人学习期望的步态。2) 高层策略学习与优化模块:该模块学习一个高层策略,用于根据当前状态(例如,机器人与目标的距离)生成底层步态策略的权重。这些权重决定了最终的动作指令,即各个步态策略输出的加权平均。此外,该模块还包含一个外部优化循环,用于优化技能切换的距离阈值,以进一步提高性能。
关键创新:该方法最重要的创新点在于自动学习技能切换策略,而不是依赖于人工设计的离散规则。通过分层强化学习,系统能够根据环境和任务需求,动态地调整步态策略的权重,实现平滑的步态切换和快速的故障恢复。此外,将接触模式纳入奖励函数的设计,有助于机器人学习更加自然的步态。
关键设计:奖励函数的设计是关键。底层步态策略的奖励函数需要包含接触模式,以鼓励机器人学习期望的步态。高层策略的奖励函数需要考虑目标跟踪的精度、运动的平滑性以及技能切换的效率。外部优化循环用于优化技能切换的距离阈值,具体优化算法未知。网络结构未知,但可以推测底层步态策略和高层策略都采用深度神经网络。
🖼️ 关键图片
📊 实验亮点
该论文在模拟和真实机器人上进行了实验验证。在真实机器人实验中,成功实现了小跑、跳跃、疾驰等多种步态的平滑切换,并展示了快速的故障恢复能力。与离散切换方法相比,该方法能够实现更流畅的运动和更高的任务完成率。虽然论文中没有给出具体的性能数据,但实验结果表明该方法具有良好的实际应用价值。
🎯 应用场景
该研究成果可应用于各种四足机器人应用场景,例如搜救、巡检、物流等。通过自动学习多技能运动,四足机器人能够在复杂地形和动态环境中更加灵活地移动,完成各种任务。该技术还有潜力扩展到其他类型的机器人,例如人形机器人和轮式机器人,提高其运动能力和适应性。
📄 摘要(原文)
This paper develops a hierarchical learning and optimization framework that can learn and achieve well-coordinated multi-skill locomotion. The learned multi-skill policy can switch between skills automatically and naturally in tracking arbitrarily positioned goals and recover from failures promptly. The proposed framework is composed of a deep reinforcement learning process and an optimization process. First, the contact pattern is incorporated into the reward terms for learning different types of gaits as separate policies without the need for any other references. Then, a higher level policy is learned to generate weights for individual policies to compose multi-skill locomotion in a goal-tracking task setting. Skills are automatically and naturally switched according to the distance to the goal. The proper distances for skill switching are incorporated in reward calculation for learning the high level policy and updated by an outer optimization loop as learning progresses. We first demonstrated successful multi-skill locomotion in comprehensive tasks on a simulated Unitree A1 quadruped robot. We also deployed the learned policy in the real world showcasing trotting, bounding, galloping, and their natural transitions as the goal position changes. Moreover, the learned policy can react to unexpected failures at any time, perform prompt recovery, and resume locomotion successfully. Compared to discrete switch between single skills which failed to transition to galloping in the real world, our proposed approach achieves all the learned agile skills, with smoother and more continuous skill transitions.