CTS: Concurrent Teacher-Student Reinforcement Learning for Legged Locomotion

📄 arXiv: 2405.10830v2 📥 PDF

作者: Hongxi Wang, Haoxiang Luo, Wei Zhang, Hua Chen

分类: cs.RO

发布日期: 2024-05-17 (更新: 2024-09-01)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CTS:一种用于足式机器人运动的并发师生强化学习框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 足式机器人 强化学习 师生学习 运动控制 PPO算法

📋 核心要点

  1. 现有师生强化学习方法通常分阶段训练,效率较低,且知识迁移可能存在瓶颈,难以充分利用数据。
  2. CTS架构采用并发师生强化学习,同时训练教师和学生策略,并通过改进的PPO算法,有效利用双方与环境交互的数据。
  3. 实验结果表明,CTS在足式机器人运动控制方面表现出色,速度跟踪误差降低高达20%,验证了其在复杂地形下的鲁棒性和敏捷性。

📝 摘要(中文)

本文提出了一种新颖的并发师生强化学习架构CTS,用于解决足式机器人在不平坦地形上的运动问题。与传统的先通过强化学习训练教师策略,然后通过监督学习将知识转移给学生策略的师生架构不同,本文提出的架构在强化学习范式下并发地训练教师和学生策略网络。为此,我们开发了一种基于改进的近端策略优化(PPO)方法的新训练方案,该方案利用从教师和学生策略与环境交互中收集的数据样本。通过与最先进方法的定量模拟比较,以及四足和点足双足机器人平台的广泛室内和室外实验,证明了所提出的架构和新训练方案的有效性,展示了鲁棒和敏捷的运动能力。定量模拟比较表明,与两阶段师生方法相比,我们的方法将平均速度跟踪误差降低了高达20%,在解决盲运动任务方面表现出显著的优越性。

🔬 方法详解

问题定义:足式机器人在复杂地形上的运动控制是一个具有挑战性的问题。传统的师生强化学习方法通常采用两阶段训练模式,即先训练教师策略,然后通过监督学习将知识迁移到学生策略。这种方法存在效率低、知识迁移瓶颈等问题,难以充分利用教师和学生策略与环境交互产生的数据。

核心思路:本文的核心思路是采用并发的师生强化学习框架,同时训练教师和学生策略网络。通过让教师和学生策略同时与环境交互,并利用双方产生的数据进行学习,可以更有效地探索状态空间,提高学习效率和性能。

技术框架:CTS架构包含教师策略网络和学生策略网络。两个网络都基于深度神经网络,并使用改进的PPO算法进行训练。训练过程中,教师和学生策略同时与环境交互,收集经验数据。然后,利用这些数据更新两个网络的参数。为了鼓励学生策略学习教师策略的优点,同时保持自身的探索能力,设计了特定的损失函数。

关键创新:CTS的关键创新在于并发的师生学习模式。与传统的两阶段方法相比,CTS能够更有效地利用数据,提高学习效率和性能。此外,改进的PPO算法和特定的损失函数设计,也保证了教师和学生策略能够协同进化,共同提高运动控制能力。

关键设计:CTS使用改进的PPO算法,包括调整了clip range和value loss系数。损失函数包括策略损失、价值损失和模仿损失。模仿损失用于鼓励学生策略学习教师策略的优点。网络结构采用多层感知机(MLP),输入包括机器人的状态信息(如关节角度、角速度等),输出为机器人的动作指令(如关节力矩)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CTS在四足和点足双足机器人平台上都取得了显著的性能提升。在模拟环境中,与两阶段师生方法相比,CTS将平均速度跟踪误差降低了高达20%。在真实机器人实验中,CTS也表现出鲁棒和敏捷的运动能力,能够在室内和室外复杂地形上稳定行走。

🎯 应用场景

该研究成果可应用于各种足式机器人,例如四足机器人、双足机器人等,使其能够在复杂地形(如崎岖山地、城市废墟等)上进行自主导航和运动控制。这对于搜救、勘探、物流等领域具有重要意义,可以提高机器人的适应性和工作效率,降低人类的风险。

📄 摘要(原文)

Thanks to recent explosive developments of data-driven learning methodologies, reinforcement learning (RL) emerges as a promising solution to address the legged locomotion problem in robotics. In this paper, we propose CTS, a novel Concurrent Teacher-Student reinforcement learning architecture for legged locomotion over uneven terrains. Different from conventional teacher-student architecture that trains the teacher policy via RL first and then transfers the knowledge to the student policy through supervised learning, our proposed architecture trains teacher and student policy networks concurrently under the reinforcement learning paradigm. To this end, we develop a new training scheme based on a modified proximal policy gradient (PPO) method that exploits data samples collected from the interactions between both the teacher and the student policies with the environment. The effectiveness of the proposed architecture and the new training scheme is demonstrated through substantial quantitative simulation comparisons with the state-of-the-art approaches and extensive indoor and outdoor experiments with quadrupedal and point-foot bipedal robot platforms, showcasing robust and agile locomotion capability. Quantitative simulation comparisons show that our approach reduces the average velocity tracking error by up to 20% compared to the two-stage teacher-student, demonstrating significant superiority in addressing blind locomotion tasks. Videos are available at https://clearlab-sustech.github.io/concurrentTS.