Multi-Objective Learning Model Predictive Control
作者: Siddharth H. Nair, Charlott Vallon, Francesco Borrelli
分类: eess.SY
发布日期: 2024-05-19 (更新: 2024-10-17)
💡 一句话要点
提出多目标学习模型预测控制,提升线性系统重复任务中的多目标性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 多目标优化 数据驱动控制 迭代学习 线性系统 闭环控制 帕累托最优 重复任务
📋 核心要点
- 传统控制方法在处理具有多个优化目标的复杂系统时,难以兼顾所有目标的性能提升。
- 该方法利用系统数据迭代构建模型预测控制器的终端组件,保证闭环控制性能在每次迭代中均有所提升。
- 通过仿真实验验证了该方法在多目标优化控制中的有效性,并证明了收敛策略的帕累托最优性。
📝 摘要(中文)
多目标学习模型预测控制(Multi-Objective Learning Model Predictive Control)是一种新颖的数据驱动控制方案,它通过重复任务的迭代,改进线性系统在多个凸控制目标方面的闭环性能。在每个任务迭代中,收集到的系统数据被用于构建模型预测控制器的终端组件。本文提出的公式确保了闭环控制性能在连续迭代之间,在每个目标方面都有所提高。我们提供了递归可行性和性能改进的证明,并表明收敛策略是帕累托最优的。仿真结果证明了该方法的适用性。
🔬 方法详解
问题定义:论文旨在解决线性系统在重复任务中,如何同时优化多个凸控制目标的问题。现有方法可能难以在多个目标之间取得平衡,或者需要大量的先验知识和手动调整,缺乏自适应性和优化效率。
核心思路:论文的核心思路是利用数据驱动的方法,通过迭代学习来改进模型预测控制器的性能。具体来说,在每次任务迭代中,收集系统数据,并利用这些数据来构建或更新模型预测控制器的终端组件,从而逐步提升控制性能。这种迭代学习的方式使得控制器能够自适应地优化多个目标,而无需大量的先验知识。
技术框架:该方法的技术框架主要包括以下几个阶段:1) 系统执行重复任务并收集数据;2) 利用收集到的数据构建或更新模型预测控制器的终端组件;3) 使用更新后的控制器执行下一个任务迭代;4) 重复以上步骤,直到控制性能收敛。模型预测控制器是整个框架的核心,其终端组件的设计至关重要,直接影响控制性能和稳定性。
关键创新:该方法最重要的技术创新点在于将多目标学习与模型预测控制相结合,提出了一种数据驱动的迭代学习控制方案。与传统的模型预测控制方法相比,该方法能够自适应地优化多个目标,并且不需要大量的先验知识。此外,该方法还提供了递归可行性和性能改进的证明,保证了控制系统的稳定性和性能提升。
关键设计:关键设计包括:1) 模型预测控制器的目标函数设计,需要合理地权衡多个凸控制目标;2) 终端组件的构建方法,需要利用收集到的系统数据来估计系统的动态特性和约束条件;3) 迭代学习的策略,需要保证每次迭代都能够提升控制性能,并且最终收敛到帕累托最优解。具体的参数设置和损失函数需要根据具体的系统和任务进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过仿真实验验证了所提出方法的有效性。实验结果表明,该方法能够在重复任务中逐步提升线性系统在多个凸控制目标方面的闭环性能。与传统的模型预测控制方法相比,该方法能够更快地收敛到帕累托最优解,并且具有更好的鲁棒性。
🎯 应用场景
该研究成果可应用于机器人控制、过程控制、智能交通等领域,尤其适用于需要同时优化多个性能指标的复杂系统。例如,在机器人控制中,可以同时优化机器人的运动轨迹、能量消耗和任务完成时间。在智能交通中,可以同时优化交通流量、车辆排放和乘客出行时间。该方法具有很高的实际应用价值和推广前景。
📄 摘要(原文)
Multi-Objective Learning Model Predictive Control is a novel data-driven control scheme which improves a linear system's closed-loop performance with respect to several convex control objectives over iterations of a repeated task. At each task iteration, collected system data is used to construct terminal components of a Model Predictive Controller. The formulation presented in this paper ensures that closed-loop control performance improves between successive iterations with respect to each objective. We provide proofs of recursive feasibility and performance improvement, and show that the converged policy is Pareto optimal. Simulation results demonstrate the applicability of the proposed approach.