Hierarchical Learning Framework for Whole-Body Model Predictive Control of a Real Humanoid Robot

📄 arXiv: 2409.08488v1 📥 PDF

作者: Koji Ishihara, Hiroaki Gomi, Jun Morimoto

分类: cs.RO

发布日期: 2024-09-13

备注: 12 pages, 7 figures


💡 一句话要点

提出一种层级学习框架,用于真实人形机器人全身模型预测控制,解决实物迁移和计算负担问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 全身模型预测控制 层级学习 强化学习 动力学模型 深度残差网络 运动控制

📋 核心要点

  1. 全身模型预测控制在真实机器人上的应用受限于模拟-真实差距和高计算复杂度,难以生成多样化运动。
  2. 论文提出三层层级学习框架,顶层学习精确动力学模型,中低层生成高频控制输入,解决上述问题。
  3. 实验表明,该框架能使真实人形机器人在多种场景下生成复杂运动,验证了其有效性。

📝 摘要(中文)

本文提出了一种受生物学启发的层级学习框架,旨在解决真实人形机器人全身模型预测控制(whole-body MPC)中存在的模拟-真实差距问题和高计算负担问题。该框架包含三层结构,即使在低频率的全身MPC策略更新下,也能生成多接触、动态的行为。顶层负责学习精确的动力学模型,以减少解析模型与真实系统之间的差异,从而实现有效的全身MPC控制策略计算。中层和底层则负责学习额外的策略,以生成高频率的控制输入。顶层使用基于模型的强化学习和随机全身MPC,训练一个使用深度残差网络的增强模型,从而学习精确的动力学模型。该框架在10个不同的运动学习场景中进行了评估,包括在平面上慢跑和在曲面上滑冰。结果表明,通过使用所提出的框架进行学习,可以在真实人形机器人上成功生成各种运动。

🔬 方法详解

问题定义:论文旨在解决真实人形机器人全身模型预测控制中存在的两个主要问题:一是模拟环境与真实环境之间的差距(simulation-to-real gap),导致在模拟环境中训练的控制策略难以直接应用于真实机器人;二是全身模型预测控制本身计算复杂度高,难以实现高频率的控制更新,从而限制了机器人运动的灵活性和动态性。现有方法通常难以同时解决这两个问题,或者需要大量的工程调整才能在特定任务上取得较好的效果。

核心思路:论文的核心思路是采用一种层级学习框架,将复杂的全身运动控制问题分解为多个层次的任务,并分别进行学习。顶层负责学习一个精确的动力学模型,以弥合模拟-真实差距,并为全身MPC提供准确的预测。中层和底层则负责学习高频率的控制策略,以提高机器人的运动灵活性和动态性。这种分层结构允许低频率的全身MPC策略更新,同时实现高频率的控制输出,从而降低计算负担。

技术框架:该框架包含三个层次: 1. 顶层(Dynamics Model Learning):使用基于模型的强化学习,通过随机全身MPC与深度残差网络相结合,学习一个能够准确预测机器人动力学的增强模型。 2. 中层(High-Frequency Policy Learning):学习一个中间策略,用于将顶层输出的低频控制指令转换为中等频率的控制信号。 3. 底层(Low-Level Control):学习一个低层控制策略,将中层输出的中等频率控制信号转换为高频率的电机控制指令。 整体流程是,顶层MPC基于学习到的动力学模型生成全局运动规划,中层和底层策略则负责将该规划转化为具体的电机控制信号,从而驱动机器人运动。

关键创新:该论文的关键创新在于: 1. 层级学习框架:将全身运动控制问题分解为多个层次,分别进行学习,降低了问题的复杂性,提高了学习效率。 2. 基于深度残差网络的增强模型:使用深度残差网络学习动力学模型,能够有效地捕捉机器人动力学中的非线性特性,提高模型的预测精度。 3. 结合随机全身MPC的强化学习:通过随机全身MPC探索状态空间,并使用强化学习优化动力学模型,提高了模型的鲁棒性和泛化能力。

关键设计: 1. 深度残差网络结构:具体网络结构未知,但残差连接有助于训练更深的网络,提高模型的表达能力。 2. 损失函数:用于训练动力学模型的损失函数需要仔细设计,以确保模型能够准确预测机器人的状态转移。具体损失函数形式未知。 3. 随机全身MPC的参数设置:随机全身MPC的参数,如探索噪声的大小、控制频率等,需要仔细调整,以平衡探索和利用之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在10个不同的运动学习场景中进行了评估,包括在平面上慢跑和在曲面上滑冰。实验结果表明,通过使用所提出的框架进行学习,可以在真实人形机器人上成功生成各种运动。具体性能数据未知,但实验验证了该框架在真实机器人上的有效性,并展示了其在复杂运动控制方面的潜力。

🎯 应用场景

该研究成果可应用于人形机器人的运动控制、步态规划、人机协作等领域。通过学习精确的动力学模型和高频率的控制策略,可以使人形机器人在复杂环境中实现更加灵活、稳定和高效的运动。此外,该框架还可以推广到其他类型的机器人,如四足机器人、机械臂等,具有广泛的应用前景。

📄 摘要(原文)

The simulation-to-real gap problem and the high computational burden of whole-body Model Predictive Control (whole-body MPC) continue to present challenges in generating a wide variety of movements using whole-body MPC for real humanoid robots. This paper presents a biologically-inspired hierarchical learning framework as a potential solution to the aforementioned problems. The proposed three-layer hierarchical framework enables the generation of multi-contact, dynamic behaviours even with low-frequency policy updates of whole-body MPC. The upper layer is responsible for learning an accurate dynamics model with the objective of reducing the discrepancy between the analytical model and the real system. This enables the computation of effective control policies using whole-body MPC. Subsequently, the middle and lower layers are tasked with learning additional policies to generate high-frequency control inputs. In order to learn an accurate dynamics model in the upper layer, an augmented model using a deep residual network is trained by model-based reinforcement learning with stochastic whole-body MPC. The proposed framework was evaluated in 10 distinct motion learning scenarios, including jogging on a flat surface and skating on curved surfaces. The results demonstrate that a wide variety of motions can be successfully generated on a real humanoid robot using whole-body MPC through learning with the proposed framework.