No-Regret Model Predictive Control with Online Learning of Koopman Operators

作者: Hongyu Zhou, Vasileios Tzoumas

分类: eess.SY

发布日期: 2025-04-22 (更新: 2025-12-10)

备注: ACC 2025

💡 一句话要点

提出基于Koopman算子在线学习的无悔模型预测控制算法，解决非线性系统辨识与控制问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 模型预测控制 Koopman算子 在线学习 非线性系统 系统辨识

📋 核心要点

现有非线性系统控制方法难以应对未知残余动态带来的扰动和建模误差，导致控制性能下降。
提出一种基于Koopman算子的在线学习方法，实时辨识残余动态并更新模型预测控制器，实现无悔控制。
在倒立摆仿真实验中验证了算法的有效性，即使存在不准确的模型参数，也能保持杆的直立。

📝 摘要（中文）

本文研究了非线性系统的同步系统辨识和模型预测控制问题。特别地，我们为具有未知残余动态的系统提供了一种算法，该残余动态可以用Koopman算子表示。这种残余动态可以模拟外部扰动和建模误差，例如对空中和海上车辆的风和波浪扰动，或不准确的模型参数。该算法具有有限时间的近最优性保证，并渐近收敛到最优的非因果控制器。具体而言，该算法具有次线性 extit{动态遗憾}，本文将其定义为相对于最优的先知控制器的次优性，该控制器知道未知的动态将如何适应其状态和动作。为此，我们假设该算法被赋予Koopman可观测函数，使得未知的动态可以被线性动态系统近似。然后，它采用基于当前学习到的未知残余动态模型的模型预测控制。该模型使用最小二乘法以自监督的方式在线更新，基于控制系统时收集的数据。我们在基于物理的倒立摆系统的仿真中验证了我们的算法，该系统旨在保持杆的直立，尽管存在不准确的模型参数。

🔬 方法详解

问题定义：论文旨在解决非线性系统的模型预测控制问题，尤其关注系统存在未知残余动态的情况。这些残余动态可能来源于外部扰动（如风、浪）或模型参数的不准确。传统模型预测控制方法难以有效处理这些未知动态，导致控制性能下降，甚至系统不稳定。因此，如何在存在未知动态的情况下实现鲁棒且高效的控制是本研究要解决的核心问题。

核心思路：论文的核心思路是利用Koopman算子将非线性动态系统近似为线性系统，并在线学习Koopman算子来辨识未知的残余动态。通过不断更新模型，控制器能够适应系统的变化，从而实现无悔控制。这种方法的关键在于将非线性问题转化为线性问题，并利用在线学习来处理未知动态。

技术框架：该算法主要包含以下几个模块：1) Koopman可观测函数：用于将原始状态空间映射到Koopman空间，从而将非线性动态近似为线性动态。2) 在线学习模块：使用最小二乘法在线更新Koopman算子，从而辨识未知的残余动态。3) 模型预测控制模块：基于当前学习到的Koopman算子构建模型预测控制器，用于控制系统。整个流程是：系统运行过程中，在线学习模块不断更新Koopman算子，模型预测控制模块根据更新后的模型进行控制。

关键创新：该论文的关键创新在于将Koopman算子与在线学习相结合，用于解决非线性系统的模型预测控制问题。与传统的模型预测控制方法相比，该方法能够自适应地辨识和补偿未知的残余动态，从而提高控制性能和鲁棒性。此外，该算法具有有限时间的近最优性保证，并渐近收敛到最优的非因果控制器。

关键设计：算法的关键设计包括：1) Koopman可观测函数的选择：合适的Koopman可观测函数能够更好地近似非线性动态。2) 在线学习算法的选择：最小二乘法是一种简单有效的在线学习算法，适用于本问题。3) 模型预测控制器的设计：需要根据具体的系统和控制目标设计合适的模型预测控制器。4) 动态遗憾的定义：论文定义了动态遗憾，用于衡量算法相对于最优先知控制器的次优性。

🖼️ 关键图片

📊 实验亮点

论文在倒立摆仿真实验中验证了算法的有效性。实验结果表明，即使存在不准确的模型参数，该算法也能有效地保持杆的直立。该算法具有有限时间的近最优性保证，并渐近收敛到最优的非因果控制器，表明其具有良好的控制性能和鲁棒性。

🎯 应用场景

该研究成果可应用于各种非线性系统的控制，尤其适用于存在未知扰动或模型不确定性的场景，例如：无人机、水下机器人、机器人操作等。通过在线学习和自适应控制，可以提高这些系统在复杂环境中的鲁棒性和性能，具有重要的实际应用价值和潜力。

📄 摘要（原文）

We study a problem of simultaneous system identification and model predictive control of nonlinear systems. Particularly, we provide an algorithm for systems with unknown residual dynamics that can be expressed by Koopman operators. Such residual dynamics can model external disturbances and modeling errors, such as wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal non-causal controller. Specifically, the algorithm enjoys sublinear \textit{dynamic regret}, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown dynamics will adapt to its states and actions. To this end, we assume the algorithm is given Koopman observable functions such that the unknown dynamics can be approximated by a linear dynamical system. Then, it employs model predictive control based on the current learned model of the unknown residual dynamics. This model is updated online using least squares in a self-supervised manner based on the data collected while controlling the system. We validate our algorithm in physics-based simulations of a cart-pole system aiming to maintain the pole upright despite inaccurate model parameters.

No-Regret Model Predictive Control with Online Learning of Koopman Operators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理