Auto-Optimization with Active Learning in Uncertain Environment: A Predictive Control Approach

📄 arXiv: 2512.04647v1 📥 PDF

作者: Yuan Tan, Jun Yang, Zhongguo Li, Wen-Hua Chen, Shihua Li

分类: eess.SY

发布日期: 2025-12-04


💡 一句话要点

提出基于主动学习的自优化模型预测控制,解决未知动态环境下的最优运行条件追踪问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 主动学习 参数辨识 自适应控制 最优控制 未知环境 动态系统

📋 核心要点

  1. 现有方法难以在未知且动态变化的环境中同时实现参数辨识和最优运行条件追踪。
  2. 论文提出EO-MPC和AL-MPC,利用实时数据和虚拟数据,解决参数辨识激励不足和追踪目标冲突问题。
  3. 通过实例验证,所提出的方法在实际应用中表现出可靠性和有效性,能够自主追踪最优运行条件。

📝 摘要(中文)

本文提出了一种增强主动学习的自优化模型预测控制(MPC)框架,旨在自主追踪未知环境中的最优运行条件,该环境条件可能随环境变化动态调整。首先,提出了一种面向利用的MPC(EO-MPC),它将实时采样数据与鲁棒的基于集合的参数估计技术相结合,以解决参数识别的关键挑战。通过在终端约束中引入虚拟激励信号,并建立持续激励条件的验证机制,EO-MPC有效地解决了参数识别中持续激励不足的问题。在此基础上,开发了一种主动学习MPC(AL-MPC)方法,该方法集成了可用的和虚拟的未来数据,以解决追踪未知最优运行条件和参数识别之间的根本冲突。严格地建立了所提出方法的递归可行性和收敛性,并且大量的例子证实了该方法在实际应用中的可靠性和有效性。

🔬 方法详解

问题定义:论文旨在解决在未知且动态变化的环境中,如何自主追踪最优运行条件的问题。现有的模型预测控制方法在面对环境未知时,需要准确的参数模型,而参数辨识通常需要持续的激励信号,这与追踪最优运行条件的目标相冲突,导致性能下降甚至失效。

核心思路:论文的核心思路是将主动学习融入模型预测控制框架,通过设计特定的控制策略,在追踪最优运行条件的同时,主动引入虚拟激励信号,以提高参数辨识的精度。通过平衡利用(exploitation)和探索(exploration),实现对未知环境的自适应学习和优化。

技术框架:整体框架包含两个主要模块:EO-MPC(Exploitation-Oriented MPC)和AL-MPC(Active Learning MPC)。EO-MPC侧重于利用已有的数据进行参数估计和控制,通过引入虚拟激励信号来克服参数辨识中的激励不足问题。AL-MPC则进一步整合了可用的和虚拟的未来数据,以解决追踪最优运行条件和参数辨识之间的冲突。整体流程是首先通过EO-MPC进行初步的参数估计和控制,然后利用AL-MPC进行更精细的优化和学习。

关键创新:论文的关键创新在于将主动学习的思想融入到模型预测控制中,设计了EO-MPC和AL-MPC两种控制策略,分别解决了参数辨识激励不足和追踪目标冲突的问题。通过引入虚拟激励信号和整合未来数据,实现了在未知环境下的自适应学习和优化。与传统的MPC方法相比,该方法能够更好地处理环境的不确定性和动态变化。

关键设计:EO-MPC的关键设计在于终端约束中引入虚拟激励信号,并通过验证机制确保持续激励条件得到满足。AL-MPC的关键设计在于整合可用的和虚拟的未来数据,并通过优化算法平衡追踪最优运行条件和参数辨识之间的关系。具体的参数设置包括虚拟激励信号的幅度和频率、参数估计的置信区间、以及优化算法的收敛准则等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过多个实例验证了所提出方法的有效性。实验结果表明,EO-MPC能够有效地解决参数辨识中持续激励不足的问题,提高参数估计的精度。AL-MPC能够在追踪最优运行条件的同时,实现对未知环境的自适应学习和优化,显著提高了系统的性能和鲁棒性。具体的性能提升数据在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种需要在未知或动态变化环境中进行自主优化的场景,例如智能制造过程控制、机器人自主导航、智能交通系统优化、以及能源管理等领域。通过自适应地学习和优化控制策略,可以提高系统的性能、效率和鲁棒性,降低人工干预的需求,实现真正的智能化控制。

📄 摘要(原文)

This paper presents an auto-optimal model predictive control (MPC) framework enhanced with active learning, designed to autonomously track optimal operational conditions in an unknown environment,where the conditions may dynamically adjust to environmental changes. First, an exploitation-oriented MPC (EO-MPC) is proposed, integrating real-time sampling data with robust set-based parameter estimation techniques to address the critical challenge of parameter identification. By introducing virtual excitation signals into the terminal constraint and establishing a validation mechanism for persistent excitation condition, the EO-MPC effectively resolves the issue of insufficient persistent excitation in parameter identification. Building upon this foundation, an active learning MPC (AL-MPC) approach is developed to integrate both available and virtual future data to resolve the fundamental conflict between tracking an unknown optimal operational condition and parameter identification. The recursive feasibility and convergence of the proposed methods are rigorously established, and numerous examples substantiate the reliability and effectiveness of the approach in practical applications.