Fine-Tuning of Neural Network Approximate MPC without Retraining via Bayesian Optimization
作者: Henrik Hose, Paul Brunzema, Alexander von Rohr, Alexander Gräfe, Angela P. Schoellig, Sebastian Trimpe
分类: cs.RO, eess.SY
发布日期: 2025-12-16
💡 一句话要点
提出基于贝叶斯优化的神经近似MPC调参方法,无需重训练网络。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 近似模型预测控制 神经近似MPC 贝叶斯优化 参数调优 机器人控制
📋 核心要点
- 传统AMPC在MPC参数调整后需重新训练网络,成本高昂,限制了其应用。
- 利用贝叶斯优化自动调整AMPC策略参数,无需重新训练,提升数据效率。
- 硬件实验表明,该方法优于传统AMPC,并能适应新的系统实例和成本函数。
📝 摘要(中文)
近似模型预测控制(AMPC)旨在用神经网络模仿MPC的行为,从而避免在运行时求解昂贵的优化问题。然而,在部署期间,通常需要微调底层MPC的参数。这使得AMPC不切实际,因为它需要重复生成新数据集并重新训练神经网络。最近的工作通过使用MPC优化问题的近似敏感性来调整AMPC,而无需重新训练。目前,这种调整必须手动完成,这既费力又难以理解高维系统。为了解决这个问题,我们提出使用贝叶斯优化来根据实验数据调整AMPC策略的参数。通过将基于模型的控制与直接和局部学习相结合,我们的方法在硬件上实现了优于标称AMPC的性能,且只需最少的实验。这允许AMPC自动且数据高效地适应新的系统实例,并微调难以在MPC中直接实现的成本函数。我们在倒立摆小车上的摆动操作和欠驱动平衡独轮车机器人的偏航控制(一个具有挑战性的控制问题)的硬件实验中展示了所提出的方法。
🔬 方法详解
问题定义:AMPC旨在通过神经网络近似MPC,以降低在线计算成本。然而,当底层MPC的参数需要调整时(例如,适应新的系统或优化目标),传统的AMPC方法需要重新生成训练数据并重新训练神经网络,这使得AMPC的部署和维护成本很高,尤其是在实际应用中,MPC参数的调整是不可避免的。现有方法需要手动调整,在高维系统中难以操作。
核心思路:本文的核心思路是利用贝叶斯优化(Bayesian Optimization, BO)来自动调整AMPC策略的参数,而无需重新训练神经网络。BO是一种高效的全局优化算法,特别适用于目标函数评估成本高昂的情况。通过将AMPC的参数调整视为一个黑盒优化问题,BO能够利用实验数据来学习目标函数的先验知识,并指导后续的参数搜索,从而在少量实验中找到最优的参数配置。
技术框架:该方法的技术框架主要包括以下几个步骤:1. 初始化:使用初始的AMPC策略和MPC参数。2. 实验:在实际系统中运行AMPC策略,并收集实验数据(例如,状态、控制输入、成本等)。3. 贝叶斯优化:使用实验数据来构建目标函数的代理模型(例如,高斯过程),并利用采集函数(例如,期望改进)来选择下一个要评估的参数配置。4. 参数更新:使用选定的参数配置来更新AMPC策略的参数。5. 迭代:重复步骤2-4,直到达到预定的迭代次数或收敛条件。
关键创新:该方法最重要的技术创新点在于将贝叶斯优化应用于AMPC的参数调整,从而实现了自动、数据高效的AMPC适应。与现有方法相比,该方法无需手动调整参数,也无需重新训练神经网络,大大降低了AMPC的部署和维护成本。此外,该方法还可以适应难以在MPC中直接实现的成本函数,从而扩展了AMPC的应用范围。
关键设计:关键设计包括:1. 目标函数:目标函数定义了AMPC策略的性能指标,例如,跟踪误差、控制能量等。2. 代理模型:代理模型用于近似目标函数,例如,高斯过程。3. 采集函数:采集函数用于选择下一个要评估的参数配置,例如,期望改进。4. 参数化方法:如何将MPC的参数映射到AMPC策略的参数空间,以便贝叶斯优化能够有效地搜索最优参数配置。论文中使用了近似敏感度方法来建立这种映射关系。
📊 实验亮点
在倒立摆小车和欠驱动平衡独轮车的硬件实验中,该方法实现了优于标称AMPC的性能。实验结果表明,该方法能够有效地调整AMPC策略的参数,使其适应新的系统实例和成本函数。通过最少的实验,该方法实现了显著的性能提升,证明了其数据效率和实用性。
🎯 应用场景
该研究成果可广泛应用于机器人控制、自动驾驶、过程控制等领域。通过自动调整AMPC策略参数,可以使系统更好地适应不同的环境和任务,提高控制性能和鲁棒性。该方法尤其适用于需要频繁调整控制参数的复杂系统,例如,在动态环境中运行的机器人或需要优化能源效率的过程控制系统。未来,该方法有望进一步扩展到多智能体系统和分布式控制等领域。
📄 摘要(原文)
Approximate model-predictive control (AMPC) aims to imitate an MPC's behavior with a neural network, removing the need to solve an expensive optimization problem at runtime. However, during deployment, the parameters of the underlying MPC must usually be fine-tuned. This often renders AMPC impractical as it requires repeatedly generating a new dataset and retraining the neural network. Recent work addresses this problem by adapting AMPC without retraining using approximated sensitivities of the MPC's optimization problem. Currently, this adaption must be done by hand, which is labor-intensive and can be unintuitive for high-dimensional systems. To solve this issue, we propose using Bayesian optimization to tune the parameters of AMPC policies based on experimental data. By combining model-based control with direct and local learning, our approach achieves superior performance to nominal AMPC on hardware, with minimal experimentation. This allows automatic and data-efficient adaptation of AMPC to new system instances and fine-tuning to cost functions that are difficult to directly implement in MPC. We demonstrate the proposed method in hardware experiments for the swing-up maneuver on an inverted cartpole and yaw control of an under-actuated balancing unicycle robot, a challenging control problem.