Adaptive Legged Locomotion via Online Learning for Model Predictive Control
作者: Hongyu Zhou, Xiaoyu Zhang, Vasileios Tzoumas
分类: cs.RO, eess.SY
发布日期: 2025-10-17 (更新: 2025-11-30)
备注: IEEE Robotics and Automation Letters
💡 一句话要点
提出基于在线学习的自适应腿足机器人运动控制算法,应对未知扰动。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 腿足机器人 模型预测控制 在线学习 残差动力学 自适应控制
📋 核心要点
- 现有腿足机器人控制方法难以应对未知扰动和建模误差,导致性能下降甚至失效。
- 该论文提出在线学习残差动力学的方法,实时估计并补偿模型误差和外部扰动,提高控制器的鲁棒性。
- 在Gazebo和MuJoCo仿真中,验证了算法在各种复杂地形和扰动下的有效性,实现了精确的轨迹跟踪。
📝 摘要(中文)
本文提出了一种基于在线学习和模型预测控制的自适应腿足机器人运动算法。该算法由两个相互作用的模块组成:模型预测控制(MPC)和残差动力学的在线学习。残差动力学可以表示建模误差和外部扰动。我们的动机是四足机器人在自主执行复杂任务时,能够应对现实世界中未知的各种不确定性,例如未知的有效载荷和不平坦的地形。该算法使用随机傅里叶特征来近似再生核希尔伯特空间中的残差动力学。然后,它采用基于当前学习到的残差动力学模型的MPC。该模型以自监督的方式在线更新,使用基于最小二乘法的数据,这些数据是在控制四足机器人时收集的。该算法具有次线性动态遗憾,定义为相对于知道残差动力学的最优先知控制器的次优性。我们在Gazebo和MuJoCo仿真中验证了我们的算法,其中四足机器人旨在跟踪参考轨迹。Gazebo仿真包括高达12g(g是重力矢量)的恒定未知外力,在平坦地形、倾斜20度的斜坡地形和高度变化为0.25米的粗糙地形中。MuJoCo仿真包括高达8公斤的有效载荷的时变未知扰动和平坦地形中时变的地面摩擦系数。
🔬 方法详解
问题定义:腿足机器人在实际应用中,常常面临未知的有效载荷、不平坦地形以及外部扰动等问题,这些因素会导致机器人动力学模型与实际情况产生偏差。传统的模型预测控制(MPC)方法依赖于精确的动力学模型,因此在存在较大模型误差的情况下,控制性能会显著下降,甚至导致控制失败。因此,如何提高腿足机器人在未知扰动下的鲁棒性是亟待解决的问题。
核心思路:该论文的核心思路是通过在线学习的方式,实时估计并补偿机器人动力学模型中的残差动力学。残差动力学可以理解为建模误差和外部扰动的综合体现。通过不断地从实际运动数据中学习,算法能够逐渐逼近真实的残差动力学,从而提高MPC控制器的精度和鲁棒性。这种自适应的方法使得机器人能够更好地应对未知的环境变化。
技术框架:该算法主要由两个模块组成:模型预测控制(MPC)模块和残差动力学在线学习模块。MPC模块基于当前的动力学模型(包括学习到的残差动力学)生成控制指令,驱动机器人运动。在线学习模块则根据机器人运动过程中采集的数据,使用最小二乘法不断更新残差动力学模型。这两个模块相互作用,形成一个闭环控制系统。
关键创新:该论文的关键创新在于将在线学习与MPC相结合,实现对残差动力学的自适应估计和补偿。具体来说,使用随机傅里叶特征来近似再生核希尔伯特空间中的残差动力学,这使得算法能够处理复杂的非线性动力学。此外,该算法具有次线性动态遗憾的理论保证,这意味着随着时间的推移,算法的性能会逐渐接近最优的先知控制器。
关键设计:残差动力学使用随机傅里叶特征进行近似,特征的数量是一个重要的参数,需要根据问题的复杂程度进行调整。在线学习模块使用最小二乘法进行参数更新,需要选择合适的正则化系数以避免过拟合。MPC模块的优化目标包括跟踪误差和控制力矩,需要根据具体任务调整权重系数。
📊 实验亮点
在Gazebo仿真中,该算法成功地控制四足机器人在平坦、倾斜和粗糙地形上进行轨迹跟踪,并能抵抗高达12g的未知外力扰动。在MuJoCo仿真中,该算法能够应对高达8kg的有效载荷和时变的地面摩擦系数。实验结果表明,该算法能够显著提高腿足机器人在未知扰动下的鲁棒性和控制精度。
🎯 应用场景
该研究成果可应用于各种腿足机器人,使其能够在复杂和未知的环境中自主执行任务,例如搜救、巡检、物流等。通过自适应地学习和补偿模型误差,机器人可以更好地适应不同的地形和负载,提高任务完成的效率和可靠性。此外,该方法还可以推广到其他类型的机器人控制问题,例如无人机和水下机器人。
📄 摘要(原文)
We provide an algorithm for adaptive legged locomotion via online learning and model predictive control. The algorithm is composed of two interacting modules: model predictive control (MPC) and online learning of residual dynamics. The residual dynamics can represent modeling errors and external disturbances. We are motivated by the future of autonomy where quadrupeds will autonomously perform complex tasks despite real-world unknown uncertainty, such as unknown payload and uneven terrains. The algorithm uses random Fourier features to approximate the residual dynamics in reproducing kernel Hilbert spaces. Then, it employs MPC based on the current learned model of the residual dynamics. The model is updated online in a self-supervised manner using least squares based on the data collected while controlling the quadruped. The algorithm enjoys sublinear \textit{dynamic regret}, defined as the suboptimality against an optimal clairvoyant controller that knows how the residual dynamics. We validate our algorithm in Gazebo and MuJoCo simulations, where the quadruped aims to track reference trajectories. The Gazebo simulations include constant unknown external forces up to $12\boldsymbol{g}$, where $\boldsymbol{g}$ is the gravity vector, in flat terrain, slope terrain with $20\degree$ inclination, and rough terrain with $0.25m$ height variation. The MuJoCo simulations include time-varying unknown disturbances with payload up to $8~kg$ and time-varying ground friction coefficients in flat terrain.