Benchmarking the Full-Order Model Optimization Based Imitation in the Humanoid Robot Reinforcement Learning Walk

📄 arXiv: 2312.09757v1 📥 PDF

作者: Ekaterina Chaikovskaya, Inna Minashina, Vladimir Litvinenko, Egor Davydenko, Dmitry Makarov, Yulia Danik, Roman Gorbachev

分类: cs.RO

发布日期: 2023-12-15

备注: in Proc. IEEE Int. Conf. on Advanced Robotics (IEEE ICAR 2023). Copyright 20XX IEEE. Personal use of this material is permitted


💡 一句话要点

人形机器人强化学习步态中,基于全阶模型优化的模仿学习基准研究

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 步态生成 模仿学习 全阶模型 sim-to-sim 用户研究

📋 核心要点

  1. 现有双足机器人步态学习方法在参考轨迹的使用上存在选择难题,缺乏系统性的对比分析。
  2. 论文通过调整模仿奖励比例,探索参考轨迹对步态学习的影响,旨在平衡自然性和鲁棒性。
  3. 实验表明,平衡模仿奖励和速度奖励的训练方法,能够在自然性和鲁棒性上取得较好的折衷。

📝 摘要(中文)

本文研究了参考轨迹对双足机器人步态学习和最终步态的影响。通过深度强化学习开发双足机器人的步态时,可以使用参考轨迹,也可以不使用。每种方法都有其优点和缺点,方法的选择取决于控制开发人员。我们实现了具有不同奖励模仿比率的全阶拟人机器人模型的三个步态,提供了sim-to-sim控制策略迁移,并从鲁棒性和能量效率方面比较了这些步态。此外,由于我们的任务是为人形机器人创造一个吸引人且自然的步态,因此我们通过采访人们对步态进行了定性分析。实验结果表明,最成功的方法是在整个训练过程中,模仿奖励和服从命令速度的奖励的平均值保持平衡。与仅通过模仿训练的步态(中位数为4.0)相比,使用该方法获得的步态保留了自然性(根据用户研究,中位数为3.6),同时保持了接近于没有参考轨迹训练的步态的鲁棒性。

🔬 方法详解

问题定义:现有基于强化学习的双足机器人步态生成方法,在是否使用参考轨迹上存在选择困难。单纯模仿学习可能导致鲁棒性不足,而完全依赖强化学习则可能生成不自然的步态。因此,如何平衡步态的自然性和鲁棒性是一个关键问题。

核心思路:论文的核心思路是通过调整模仿学习在强化学习训练中的权重,即模仿奖励的比例,来探索参考轨迹对最终步态的影响。通过对比不同模仿奖励比例下的步态表现,找到一个能够兼顾自然性和鲁棒性的平衡点。

技术框架:整体框架采用sim-to-sim的迁移学习方法,首先在仿真环境中训练控制策略,然后将策略迁移到真实的机器人上。训练过程中,使用强化学习算法优化控制策略,同时引入模仿奖励,引导机器人学习参考轨迹。通过调整模仿奖励的权重,可以控制机器人对参考轨迹的依赖程度。

关键创新:论文的关键创新在于系统性地研究了模仿奖励比例对双足机器人步态学习的影响。通过对比不同模仿奖励比例下的步态表现,揭示了模仿学习在平衡自然性和鲁棒性方面的作用。此外,论文还引入了用户研究,通过主观评价来衡量步态的自然性。

关键设计:论文的关键设计包括:1) 使用全阶拟人机器人模型,更真实地模拟了机器人的运动学和动力学特性;2) 设计了模仿奖励函数,用于引导机器人学习参考轨迹;3) 通过用户研究,对步态的自然性进行了主观评价;4) 实验中对比了三种不同的模仿奖励比例,分别是完全模仿、不模仿和平衡模仿。

📊 实验亮点

实验结果表明,平衡模仿奖励和速度奖励的训练方法,能够在自然性和鲁棒性上取得较好的折衷。该方法获得的步态在自然性(用户研究中位数为3.6)上接近于完全模仿的步态(中位数为4.0),同时保持了接近于不使用参考轨迹训练的步态的鲁棒性。这表明,适当的模仿学习可以提高步态的自然性,而不会显著降低其鲁棒性。

🎯 应用场景

该研究成果可应用于人形机器人的运动控制领域,尤其是在需要自然且鲁棒步态的应用场景中,例如服务机器人、康复机器人和娱乐机器人。通过调整模仿奖励比例,可以根据具体应用需求,生成具有不同自然性和鲁棒性的步态,从而提高机器人的适应性和用户体验。

📄 摘要(原文)

When a gait of a bipedal robot is developed using deep reinforcement learning, reference trajectories may or may not be used. Each approach has its advantages and disadvantages, and the choice of method is up to the control developer. This paper investigates the effect of reference trajectories on locomotion learning and the resulting gaits. We implemented three gaits of a full-order anthropomorphic robot model with different reward imitation ratios, provided sim-to-sim control policy transfer, and compared the gaits in terms of robustness and energy efficiency. In addition, we conducted a qualitative analysis of the gaits by interviewing people, since our task was to create an appealing and natural gait for a humanoid robot. According to the results of the experiments, the most successful approach was the one in which the average value of rewards for imitation and adherence to command velocity per episode remained balanced throughout the training. The gait obtained with this method retains naturalness (median of 3.6 according to the user study) compared to the gait trained with imitation only (median of 4.0), while remaining robust close to the gait trained without reference trajectories.