Fine-Tuning of Neural Network Approximate MPC without Retraining via Bayesian Optimization

📄 arXiv: 2512.14350v3 📥 PDF

作者: Henrik Hose, Paul Brunzema, Alexander von Rohr, Alexander Gräfe, Angela P. Schoellig, Sebastian Trimpe

分类: cs.RO, eess.SY

发布日期: 2025-12-16 (更新: 2026-01-16)

备注: Presented at the 13th International Conference on Robot Intelligence Technology and Applications


💡 一句话要点

提出基于贝叶斯优化的神经近似MPC调参方法,无需重训练。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 近似模型预测控制 贝叶斯优化 神经网络 参数调优 机器人控制

📋 核心要点

  1. 现有AMPC方法在MPC参数调整后需重新训练神经网络,成本高昂且效率低下。
  2. 该论文提出利用贝叶斯优化自动调整AMPC策略参数,无需重新训练网络。
  3. 实验表明,该方法在硬件上优于传统AMPC,且数据利用率高,适用于新系统。

📝 摘要(中文)

近似模型预测控制(AMPC)旨在用神经网络模仿MPC的行为,从而避免在运行时求解耗时的优化问题。然而,在部署期间,通常需要微调底层MPC的参数。这使得AMPC不切实际,因为它需要重复生成新数据集并重新训练神经网络。最近的研究通过近似MPC优化问题的敏感性来解决这个问题,从而在不重新训练的情况下调整AMPC。目前,这种调整必须手动完成,这既费力又难以理解高维系统。为了解决这个问题,我们提出使用贝叶斯优化来根据实验数据调整AMPC策略的参数。通过将基于模型的控制与直接和局部学习相结合,我们的方法在硬件上实现了优于标称AMPC的性能,且只需最少的实验。这允许AMPC自动且数据高效地适应新的系统实例,并微调难以在MPC中直接实现的成本函数。我们在倒立摆小车上的摆动操作和欠驱动平衡独轮车机器人的偏航控制(一个具有挑战性的控制问题)的硬件实验中证明了所提出的方法。

🔬 方法详解

问题定义:现有的近似模型预测控制(AMPC)方法在实际部署中,当底层MPC的参数需要调整时,必须重新生成数据集并重新训练神经网络。这个过程耗时且计算成本高昂,限制了AMPC的实际应用。手动调整AMPC策略参数既费力又难以在高维系统中实现。

核心思路:该论文的核心思路是利用贝叶斯优化(Bayesian Optimization)来自动调整AMPC策略的参数,而无需重新训练神经网络。贝叶斯优化是一种有效的全局优化方法,特别适用于目标函数评估成本高昂的情况。通过将实验数据作为反馈,贝叶斯优化能够有效地搜索最优的AMPC参数配置。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 初始化AMPC策略;2) 在实际系统中运行AMPC策略并收集实验数据;3) 使用实验数据构建目标函数,该目标函数反映了AMPC策略的性能;4) 使用贝叶斯优化算法搜索最优的AMPC参数配置,目标是最大化目标函数;5) 使用优化后的参数更新AMPC策略;6) 重复步骤2-5,直到AMPC策略的性能达到期望水平。

关键创新:该论文的关键创新在于将贝叶斯优化应用于AMPC策略的参数调整,从而实现了自动化的参数调整过程,无需重新训练神经网络。与现有的手动调整方法相比,该方法更加高效且易于使用。此外,该方法还能够适应新的系统实例和难以在MPC中直接实现的成本函数。

关键设计:该方法的关键设计包括:1) 目标函数的选择,目标函数需要能够准确地反映AMPC策略的性能;2) 贝叶斯优化算法的选择,需要选择一种能够有效处理高维参数空间和噪声数据的贝叶斯优化算法;3) 实验数据的收集策略,需要设计一种能够收集到足够信息量的实验数据,以便贝叶斯优化算法能够有效地搜索最优参数配置。

🖼️ 关键图片

img_0

📊 实验亮点

该论文在倒立摆小车和欠驱动平衡独轮车机器人上进行了硬件实验。实验结果表明,该方法能够显著提高AMPC策略的性能,优于传统的AMPC方法。具体而言,该方法能够使倒立摆小车更快地完成摆动操作,并使欠驱动平衡独轮车机器人更稳定地保持平衡。

🎯 应用场景

该研究成果可广泛应用于机器人控制、自动驾驶、过程控制等领域。通过自动调整AMPC策略参数,可以提高控制系统的性能和鲁棒性,降低开发和维护成本。该方法尤其适用于需要频繁调整控制参数的复杂系统,例如在动态环境中运行的机器人。

📄 摘要(原文)

Approximate model-predictive control (AMPC) aims to imitate an MPC's behavior with a neural network, removing the need to solve an expensive optimization problem at runtime. However, during deployment, the parameters of the underlying MPC must usually be fine-tuned. This often renders AMPC impractical as it requires repeatedly generating a new dataset and retraining the neural network. Recent work addresses this problem by adapting AMPC without retraining using approximated sensitivities of the MPC's optimization problem. Currently, this adaption must be done by hand, which is labor-intensive and can be unintuitive for high-dimensional systems. To solve this issue, we propose using Bayesian optimization to tune the parameters of AMPC policies based on experimental data. By combining model-based control with direct and local learning, our approach achieves superior performance to nominal AMPC on hardware, with minimal experimentation. This allows automatic and data-efficient adaptation of AMPC to new system instances and fine-tuning to cost functions that are difficult to directly implement in MPC. We demonstrate the proposed method in hardware experiments for the swing-up maneuver on an inverted cartpole and yaw control of an under-actuated balancing unicycle robot, a challenging control problem.