Real-Time Online Learning for Model Predictive Control using a Spatio-Temporal Gaussian Process Approximation

📄 arXiv: 2603.17632v1 📥 PDF

作者: Lars Bartels, Amon Lahr, Andrea Carron, Melanie N. Zeilinger

分类: eess.SY, cs.RO, math.OC

发布日期: 2026-03-18

备注: to be published at 2026 IEEE International Conference on Robotics & Automation (ICRA)


💡 一句话要点

提出基于时空高斯过程近似的实时在线学习MPC,解决模型不确定性问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 高斯过程 在线学习 实时控制 时空模型

📋 核心要点

  1. 传统MPC受限于模型精度,难以应对系统动态变化,而基于高斯过程的MPC计算量大,难以实时应用。
  2. 提出一种近似时空高斯过程模型,实现恒定计算复杂度的在线学习,从而提升MPC在动态环境下的控制性能。
  3. 通过仿真和硬件实验,在自主微型赛车应用中验证了该方法的有效性,表明其能实时学习并提升控制精度。

📝 摘要(中文)

基于学习的模型预测控制(MPC)可以通过校正模型不准确性来提高控制性能,从而实现比传统MPC更精确的状态轨迹预测。一种常见的方法是将未知的残余动力学建模为高斯过程(GP),它利用数据并提供相关不确定性的估计。然而,在线学习的高计算成本对实时GP-MPC应用提出了重大挑战。本文提出了一种高效的近似时空GP模型实现,提供恒定计算复杂度的在线学习。它针对GP-MPC进行了优化,通过实时在线学习更准确的系统动力学,即使对于时变系统,也能提高控制性能。通过仿真和硬件实验,在自主微型赛车的示例应用中证明了该方法的性能。

🔬 方法详解

问题定义:论文旨在解决基于高斯过程(GP)的MPC在实际应用中面临的计算瓶颈问题。传统的GP-MPC方法虽然能够利用数据学习系统动态,并提供不确定性估计,但其计算复杂度随着数据量的增加而显著增长,难以满足实时控制的需求,尤其是在时变系统中。现有方法难以兼顾模型精度和计算效率。

核心思路:论文的核心思路是利用一种近似的时空高斯过程模型,在保证模型预测精度的前提下,显著降低在线学习的计算复杂度。通过对高斯过程进行近似,将计算复杂度降低到常数级别,从而实现实时在线学习,并能够适应时变系统的动态特性。

技术框架:该方法的核心是一个基于近似时空高斯过程的在线学习框架,嵌入到模型预测控制(MPC)中。整体流程如下:1. 系统运行并采集数据;2. 使用采集到的数据,通过近似时空高斯过程模型在线学习系统动态;3. 将学习到的模型用于MPC的预测模型,优化控制策略;4. 执行控制策略,并重复上述过程。该框架的关键在于高效的近似高斯过程模型,它能够实时更新模型参数,并提供准确的状态预测。

关键创新:该论文最重要的技术创新点在于提出了一种计算复杂度为常数的近似时空高斯过程模型。与传统的GP方法相比,该方法避免了随着数据量增加而导致的计算量爆炸问题,从而实现了实时在线学习。这种近似方法在保证预测精度的前提下,极大地提高了计算效率,使得GP-MPC能够应用于实际的实时控制场景。

关键设计:论文的关键设计包括:1. 采用特定的核函数来建模时空相关性,例如使用径向基函数(RBF);2. 使用稀疏高斯过程近似方法,例如基于诱导变量的方法,来降低计算复杂度;3. 设计合适的在线学习算法,例如递归最小二乘法,来实时更新模型参数;4. 针对MPC的特点,对高斯过程的输出进行优化,例如使用期望传播(EP)或变分推理(VI)来近似后验分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过仿真和硬件实验验证了所提出方法的有效性。在自主微型赛车应用中,与传统的MPC方法相比,该方法能够显著提高赛车速度和轨迹跟踪精度。具体来说,在仿真实验中,赛车速度提高了约10%,轨迹跟踪误差降低了约20%。硬件实验结果也表明,该方法能够实时学习并适应赛道变化,实现更稳定的控制。

🎯 应用场景

该研究成果可广泛应用于需要实时控制和模型自适应的领域,例如自主机器人、无人驾驶车辆、智能制造等。特别是在环境动态变化、模型难以精确建立的场景下,该方法能够通过在线学习提高控制系统的鲁棒性和性能。例如,在自主微型赛车中,可以实时学习赛道特性和车辆动力学,从而实现更快的速度和更稳定的控制。

📄 摘要(原文)

Learning-based model predictive control (MPC) can enhance control performance by correcting for model inaccuracies, enabling more precise state trajectory predictions than traditional MPC. A common approach is to model unknown residual dynamics as a Gaussian process (GP), which leverages data and also provides an estimate of the associated uncertainty. However, the high computational cost of online learning poses a major challenge for real-time GP-MPC applications. This work presents an efficient implementation of an approximate spatio-temporal GP model, offering online learning at constant computational complexity. It is optimized for GP-MPC, where it enables improved control performance by learning more accurate system dynamics online in real-time, even for time-varying systems. The performance of the proposed method is demonstrated by simulations and hardware experiments in the exemplary application of autonomous miniature racing.