Learning Generic and Dynamic Locomotion of Humanoids Across Discrete Terrains
作者: Shangqun Yu, Nisal Perera, Daniel Marew, Donghyun Kim
分类: cs.RO
发布日期: 2024-05-27 (更新: 2024-07-27)
💡 一句话要点
提出一种融合强化学习与模型预测控制的人形机器人地形自适应运动方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 地形自适应 强化学习 模型预测控制 动态运动 步态规划 机器人控制
📋 核心要点
- 人形机器人地形自适应运动面临挑战,传统优化方法难以处理复杂动力学,强化学习方法则需要大量训练数据。
- 该论文提出一种融合强化学习与模型预测控制的架构,利用强化学习策略进行高层决策,模型预测控制实现精确运动控制。
- 实验结果表明,该方法在少量训练样本下即可实现动态地形运动,并能有效迁移到不同机器人平台。
📝 摘要(中文)
本文提出了一种解决人形机器人地形自适应动态运动挑战的方法。传统方法通常依赖于优化或强化学习(RL)。基于优化的方法,如模型预测控制,擅长寻找最优反作用力并实现敏捷运动,但在处理腿部系统的非线性混合动力学以及实时计算步长位置、时间和反作用力方面存在困难。基于RL的方法在动态和粗糙地形导航方面显示出潜力,但受到大量数据需求的限制。我们引入了一种新的运动架构,该架构将通过简化环境中的RL训练的神经网络策略与结合模型预测控制(MPC)和全身脉冲控制(WBIC)的最先进的运动控制器相结合。该策略有效地学习了高级运动策略,例如步态选择和步长定位,而无需完整的动力学模拟。这种控制架构使人形机器人能够动态地导航离散地形,并根据地面高度图做出战略性运动决策(例如,行走、跳跃和跨越)。结果表明,与传统的基于RL的方法相比,这种集成控制架构以明显更少的训练样本实现了动态运动,并且可以在无需额外训练的情况下转移到不同的人形机器人平台。该控制架构已在动态模拟中进行了广泛的测试,为三种不同的机器人实现了基于地形高度的动态运动。
🔬 方法详解
问题定义:人形机器人在复杂地形上的动态运动控制是一个难题。现有的基于优化的方法,如模型预测控制(MPC),虽然在精确控制方面表现出色,但难以处理腿部机器人的非线性混合动力学,并且实时计算步长位置和反作用力非常耗时。而基于强化学习(RL)的方法虽然能够适应复杂地形,但需要大量的训练数据,训练成本高昂。
核心思路:本文的核心思路是将强化学习(RL)和模型预测控制(MPC)相结合,利用RL学习高层次的运动策略,例如步态选择和步长规划,而利用MPC进行低层次的精确运动控制。这种混合方法旨在结合两者的优点,既能适应复杂地形,又能减少对大量训练数据的需求。
技术框架:该控制架构包含两个主要模块:一个基于RL的神经网络策略和一个基于MPC和全身脉冲控制(WBIC)的运动控制器。首先,RL策略接收地形高度图作为输入,输出高层次的运动指令,例如选择哪种步态(行走、跳跃等)以及下一步的落脚点。然后,这些运动指令被传递给MPC和WBIC控制器,该控制器负责计算具体的关节力矩,以实现期望的运动。
关键创新:该方法最重要的创新点在于将强化学习策略与传统的模型预测控制相结合,实现了高层决策和底层控制的解耦。强化学习策略负责学习高层次的运动策略,而模型预测控制负责实现精确的运动控制。这种解耦使得系统能够更好地适应复杂地形,并且减少了对大量训练数据的需求。此外,该方法还能够实现不同机器人平台之间的迁移学习,无需为每个机器人单独训练。
关键设计:RL策略使用神经网络进行参数化,输入是地形高度图,输出是步态选择和步长位置。RL的训练目标是最大化机器人的运动速度和稳定性,同时避免碰撞。MPC控制器使用机器人动力学模型预测未来的运动状态,并计算最优的控制力矩,以跟踪期望的运动轨迹。WBIC控制器用于将MPC的输出转化为具体的关节力矩。
🖼️ 关键图片
📊 实验亮点
该方法在动态仿真中进行了广泛的测试,结果表明,与传统的基于RL的方法相比,该方法能够以明显更少的训练样本实现动态运动。此外,该方法还能够成功地将训练好的策略迁移到三种不同的机器人平台,而无需进行额外的训练。这些结果表明,该方法具有良好的泛化能力和实用价值。
🎯 应用场景
该研究成果可应用于搜救机器人、物流机器人、建筑机器人等领域,使人形机器人能够在复杂地形环境下执行任务,例如在灾难现场进行搜索和救援,在崎岖地形上运输物资,或在建筑工地进行施工作业。此外,该技术还可用于开发更智能的假肢和外骨骼,帮助残疾人或老年人更好地行走和活动。
📄 摘要(原文)
This paper addresses the challenge of terrain-adaptive dynamic locomotion in humanoid robots, a problem traditionally tackled by optimization-based methods or reinforcement learning (RL). Optimization-based methods, such as model-predictive control, excel in finding optimal reaction forces and achieving agile locomotion, especially in quadruped, but struggle with the nonlinear hybrid dynamics of legged systems and the real-time computation of step location, timing, and reaction forces. Conversely, RL-based methods show promise in navigating dynamic and rough terrains but are limited by their extensive data requirements. We introduce a novel locomotion architecture that integrates a neural network policy, trained through RL in simplified environments, with a state-of-the-art motion controller combining model-predictive control (MPC) and whole-body impulse control (WBIC). The policy efficiently learns high-level locomotion strategies, such as gait selection and step positioning, without the need for full dynamics simulations. This control architecture enables humanoid robots to dynamically navigate discrete terrains, making strategic locomotion decisions (e.g., walking, jumping, and leaping) based on ground height maps. Our results demonstrate that this integrated control architecture achieves dynamic locomotion with significantly fewer training samples than conventional RL-based methods and can be transferred to different humanoid platforms without additional training. The control architecture has been extensively tested in dynamic simulations, accomplishing terrain height-based dynamic locomotion for three different robots.