H-GAP: Humanoid Control with a Generalist Planner
作者: Zhengyao Jiang, Yingchen Xu, Nolan Wagener, Yicheng Luo, Michael Janner, Edward Grefenstette, Tim Rocktäschel, Yuandong Tian
分类: cs.LG, cs.AI, cs.RO
发布日期: 2023-12-05
备注: 18 pages including appendix, 4 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出H-GAP:一种基于通用规划器的类人机器人控制方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 类人机器人控制 通用规划器 运动捕捉数据 模型预测控制 自编码器 轨迹生成 零样本迁移
📋 核心要点
- 类人机器人控制面临高维动作空间优化和双足形态带来的不稳定性挑战。
- H-GAP通过在人类运动捕捉数据上训练的生成模型,学习类人运动轨迹的表示和生成。
- 实验表明,H-GAP在下游控制任务中优于传统MPC和离线RL方法,且具有良好的数据扩展性。
📝 摘要(中文)
类人机器人控制是一个重要的研究挑战,它为融入以人为中心的设施和实现物理驱动的类人动画提供了途径。该领域面临的巨大挑战源于在高维动作空间中优化以及类人机器人双足形态引入的不稳定性。然而,大量的人类运动捕捉数据和由此衍生的类人轨迹数据集,如MoCapAct,为应对这些挑战铺平了道路。在此背景下,我们提出了类人通用自编码规划器(H-GAP),这是一个在源自人类运动捕捉数据的类人轨迹上训练的状态-动作轨迹生成模型,能够熟练地处理具有模型预测控制(MPC)的下游控制任务。对于56自由度的类人机器人,我们通过实验证明,H-GAP学会了表示和生成各种运动行为。此外,在没有任何在线交互学习的情况下,它还可以灵活地转移这些行为,通过规划来解决新的下游控制任务。值得注意的是,H-GAP优于能够访问真实动力学模型的已建立的MPC基线,并且优于或可与为单个任务训练的离线RL方法相媲美。最后,我们对H-GAP的缩放特性进行了一系列实证研究,表明通过额外的数据而非计算来提高性能的潜力。
🔬 方法详解
问题定义:论文旨在解决类人机器人控制中,由于高维动作空间和双足步态不稳定性导致的控制难题。现有方法,如传统MPC,在高维空间中优化困难,而强化学习方法通常需要大量的在线交互,成本高昂,且泛化性有限。
核心思路:论文的核心思路是利用大量人类运动捕捉数据,训练一个通用的轨迹生成模型(H-GAP),使其能够学习并生成各种类人运动行为。然后,利用该模型进行规划,从而避免直接在高维动作空间中进行优化,并实现零样本的下游任务迁移。
技术框架:H-GAP的整体框架包括两个主要阶段:1) 离线训练阶段:使用人类运动捕捉数据训练一个状态-动作轨迹生成模型(基于自编码器)。2) 在线规划阶段:使用训练好的生成模型,结合模型预测控制(MPC),在下游控制任务中进行规划。MPC利用生成模型预测未来轨迹,并选择最优轨迹执行。
关键创新:H-GAP的关键创新在于其通用性。它不是针对特定任务进行训练,而是学习一个通用的运动行为表示,从而可以灵活地适应各种下游控制任务。此外,H-GAP避免了在线交互学习,降低了训练成本。
关键设计:H-GAP使用自编码器作为其生成模型,编码器将状态-动作轨迹压缩成一个低维潜在向量,解码器则根据潜在向量生成轨迹。损失函数包括重构损失和正则化项,以保证生成轨迹的质量和潜在空间的平滑性。MPC使用交叉熵方法进行轨迹优化,选择使得目标函数(例如,到达目标位置)最大化的轨迹。
📊 实验亮点
实验结果表明,H-GAP在多个下游控制任务中,例如导航、平衡等,优于传统的MPC基线,甚至可以与针对特定任务训练的离线强化学习方法相媲美。值得注意的是,H-GAP无需任何在线交互学习,即可实现零样本的迁移,展现了其强大的泛化能力。此外,实验还验证了H-GAP具有良好的数据扩展性,表明可以通过增加训练数据来进一步提高性能。
🎯 应用场景
H-GAP具有广泛的应用前景,包括:1) 物理驱动的类人动画生成,可以用于游戏、电影等领域;2) 辅助人类的机器人,例如在养老院或医院中提供帮助;3) 在复杂环境中执行任务的机器人,例如在灾难救援或太空探索中。该研究有望推动类人机器人技术的发展,使其更好地服务于人类社会。
📄 摘要(原文)
Humanoid control is an important research challenge offering avenues for integration into human-centric infrastructures and enabling physics-driven humanoid animations. The daunting challenges in this field stem from the difficulty of optimizing in high-dimensional action spaces and the instability introduced by the bipedal morphology of humanoids. However, the extensive collection of human motion-captured data and the derived datasets of humanoid trajectories, such as MoCapAct, paves the way to tackle these challenges. In this context, we present Humanoid Generalist Autoencoding Planner (H-GAP), a state-action trajectory generative model trained on humanoid trajectories derived from human motion-captured data, capable of adeptly handling downstream control tasks with Model Predictive Control (MPC). For 56 degrees of freedom humanoid, we empirically demonstrate that H-GAP learns to represent and generate a wide range of motor behaviours. Further, without any learning from online interactions, it can also flexibly transfer these behaviors to solve novel downstream control tasks via planning. Notably, H-GAP excels established MPC baselines that have access to the ground truth dynamics model, and is superior or comparable to offline RL methods trained for individual tasks. Finally, we do a series of empirical studies on the scaling properties of H-GAP, showing the potential for performance gains via additional data but not computing. Code and videos are available at https://ycxuyingchen.github.io/hgap/.