Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models

📄 arXiv: 2410.09163v2 📥 PDF

作者: Jacob Levy, Tyler Westenbroek, David Fridovich-Keil

分类: cs.RO, cs.LG, math.OC

发布日期: 2024-10-11 (更新: 2024-10-28)

备注: v2: corrected typos in eqs (1) and (3); add CoRL footnote


💡 一句话要点

提出半结构化动力学模型,仅用少量真实数据实现四足机器人行走控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 半结构化模型 动力学建模 强化学习 四足机器人 机器人控制

📋 核心要点

  1. 现有基于模型的强化学习方法依赖大量数据,且黑盒模型泛化性差,难以应用于真实机器人控制。
  2. 论文提出半结构化动力学模型,结合物理先验知识和数据驱动模型,提升预测精度和数据利用率。
  3. 实验表明,该方法仅需少量真实数据即可在四足机器人上学习动态步态,验证了其高效性。

📝 摘要(中文)

传统上,基于模型的强化学习(MBRL)方法利用神经网络作为灵活的函数逼近器来表示先验未知的环境动力学。然而,在实践中训练数据通常稀缺,这些黑盒模型常常无法泛化。利用已知物理信息的建模架构可以显著降低系统辨识的复杂性,但在面对接触等复杂现象时会失效。我们提出了一种新的框架,用于学习接触丰富的系统的半结构化动力学模型,该框架将结构化的第一性原理建模技术与黑盒自回归模型无缝集成。具体来说,我们开发了一个概率模型集成来估计外部力,以外部观测和动作为条件,并使用已知的拉格朗日动力学来整合这些预测。通过这种半结构化的方法,我们可以用比现有方法少得多的数据做出准确的长程预测。我们利用这种能力,提出了半结构化强化学习(SSRL),这是一个简单的基于模型的学习框架,它突破了真实世界学习的样本复杂度边界。我们在真实的Unitree Go1四足机器人上验证了我们的方法,仅用几分钟的真实世界数据,从零开始在硬表面和软表面上学习动态步态。视频和代码可在https://sites.google.com/utexas.edu/ssrl上找到。

🔬 方法详解

问题定义:论文旨在解决真实机器人控制中,基于模型的强化学习方法对数据需求量大,且黑盒模型泛化能力弱的问题。现有方法要么依赖大量数据训练复杂的神经网络模型,要么依赖精确的物理模型,但后者难以处理复杂的接触情况。因此,如何在数据有限的情况下,建立能够准确预测机器人动力学行为的模型,是本研究要解决的核心问题。

核心思路:论文的核心思路是将已知的物理知识(如拉格朗日动力学)与数据驱动的黑盒模型相结合,构建一个半结构化的动力学模型。这种方法既可以利用物理模型的结构化信息来降低学习难度,又可以通过数据驱动模型来补偿物理模型无法精确描述的复杂现象(如接触)。通过这种方式,可以在数据量有限的情况下,提高模型的预测精度和泛化能力。

技术框架:整体框架包含以下几个主要模块:1)历史观测和动作输入;2)概率模型集成,用于估计外部力;3)拉格朗日动力学模型,用于整合预测的外部力,并预测机器人的下一步状态。框架首先利用历史观测和动作,通过概率模型集成来预测作用在机器人上的外部力。然后,将这些预测的外部力输入到拉格朗日动力学模型中,从而预测机器人的下一步状态。通过不断迭代这个过程,可以实现对机器人长期行为的预测。

关键创新:论文最重要的创新点在于提出了半结构化动力学模型。与传统的黑盒模型相比,该模型利用了已知的物理知识,从而降低了学习难度,提高了模型的泛化能力。与传统的物理模型相比,该模型又可以通过数据驱动模型来补偿物理模型无法精确描述的复杂现象。这种半结构化的方法,使得模型可以在数据量有限的情况下,实现对机器人动力学行为的准确预测。

关键设计:论文的关键设计包括:1)使用概率模型集成来估计外部力,这可以提高预测的鲁棒性;2)使用拉格朗日动力学模型作为结构化的先验知识,这可以降低学习难度;3)设计合适的损失函数,用于训练数据驱动模型,使其能够准确地预测外部力。具体的网络结构和参数设置在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Unitree Go1四足机器人上进行了验证,仅使用几分钟的真实世界数据,即可学习到在硬表面和软表面上的动态步态。实验结果表明,该方法能够显著降低真实世界学习的样本复杂度,为机器人控制领域提供了一种新的解决方案。具体的性能指标和对比基线在论文中没有明确给出,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于机器人控制领域,尤其是在数据获取困难或成本高昂的场景下,例如:复杂地形下的机器人导航、恶劣环境下的机器人操作、以及新型机器人的快速原型设计。通过少量真实数据即可训练出高性能的控制策略,降低了机器人开发的门槛,加速了机器人技术的应用。

📄 摘要(原文)

Traditionally, model-based reinforcement learning (MBRL) methods exploit neural networks as flexible function approximators to represent $\textit{a priori}$ unknown environment dynamics. However, training data are typically scarce in practice, and these black-box models often fail to generalize. Modeling architectures that leverage known physics can substantially reduce the complexity of system-identification, but break down in the face of complex phenomena such as contact. We introduce a novel framework for learning semi-structured dynamics models for contact-rich systems which seamlessly integrates structured first principles modeling techniques with black-box auto-regressive models. Specifically, we develop an ensemble of probabilistic models to estimate external forces, conditioned on historical observations and actions, and integrate these predictions using known Lagrangian dynamics. With this semi-structured approach, we can make accurate long-horizon predictions with substantially less data than prior methods. We leverage this capability and propose Semi-Structured Reinforcement Learning ($\texttt{SSRL}$) a simple model-based learning framework which pushes the sample complexity boundary for real-world learning. We validate our approach on a real-world Unitree Go1 quadruped robot, learning dynamic gaits -- from scratch -- on both hard and soft surfaces with just a few minutes of real-world data. Video and code are available at: https://sites.google.com/utexas.edu/ssrl