Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

作者: Hongyu Zhou, Vasileios Tzoumas

分类: cs.RO, eess.SY

发布日期: 2024-07-04 (更新: 2025-11-03)

备注: IEEE Transactions on Robotics (T-RO). v6 update on stability analysis in Appendix J under relaxed Assumption 1

💡 一句话要点

提出一种无动态遗憾的同步系统辨识与模型预测控制算法，用于解决非线性系统控制问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 系统辨识 模型预测控制 非线性控制 动态遗憾 再生核希尔伯特空间

📋 核心要点

现有非线性系统控制方法在系统辨识和控制上存在挑战，难以应对未知扰动和动态变化。
该论文提出一种同步系统辨识与模型预测控制算法，利用在线学习更新模型，实现自适应控制。
通过仿真和硬件实验验证了算法在存在模型不确定性和外部扰动下的有效性，如倒立摆和四旋翼控制。

📝 摘要（中文）

本文提出了一种用于非线性系统同步系统辨识与模型预测控制的算法。该算法具有有限时间的近似最优性保证，并渐近收敛到最优（非因果）控制器。特别地，该算法具有次线性动态遗憾，本文将其定义为相对于一个知道未知扰动和系统动力学如何适应其行为的最优先知控制器的次优性。该算法是自监督的，适用于具有未知动力学和扰动的控制仿射系统，这些扰动可以用再生核希尔伯特空间表示。这些空间可以对外部扰动和建模误差进行建模，这些扰动甚至可以适应系统的状态和控制输入。例如，它们可以对空中和海上车辆的风和波浪扰动，或机械系统的惯性等不准确的模型参数进行建模。该算法首先生成随机傅里叶特征，用于近似未知的动力学或扰动。然后，它采用基于当前学习到的未知动力学（或扰动）模型的模型预测控制。未知动力学模型使用基于控制系统时收集的数据的最小二乘法在线更新。我们在硬件实验和基于物理的仿真中验证了我们的算法。仿真包括（i）旨在保持杆直立的倒立摆，尽管模型参数不准确，以及（ii）旨在跟踪参考轨迹的四旋翼飞行器，尽管存在未建模的空气动力学阻力效应。硬件实验包括四旋翼飞行器，旨在跟踪圆形轨迹，尽管存在未建模的空气动力学阻力效应、地面效应和风扰动。

🔬 方法详解

问题定义：论文旨在解决非线性控制仿射系统在存在未知动力学和扰动下的控制问题。现有方法通常需要精确的系统模型，或者难以适应时变的扰动。这导致控制性能下降，甚至系统不稳定。该论文关注的是如何在系统动力学未知且存在复杂扰动（如风、建模误差等）的情况下，实现对系统的有效控制。

核心思路：论文的核心思路是同步进行系统辨识和模型预测控制。通过在线学习不断更新系统模型，并利用更新后的模型进行预测控制。这种方法能够自适应地应对未知的系统动力学和扰动，从而提高控制性能。关键在于利用再生核希尔伯特空间（RKHS）来建模未知的动力学和扰动，并使用随机傅里叶特征进行近似，降低计算复杂度。

技术框架：该算法主要包含以下几个阶段： 1. 随机傅里叶特征生成：利用随机傅里叶特征来近似RKHS中的未知动力学和扰动。 2. 在线模型学习：使用最小二乘法，基于系统运行过程中收集的数据，在线更新系统模型。 3. 模型预测控制：基于当前学习到的系统模型，使用模型预测控制（MPC）算法计算控制输入。 4. 系统控制：将计算得到的控制输入作用于实际系统。整个流程是一个闭环的自适应控制过程，系统辨识和控制同步进行，相互促进。

关键创新：该论文的关键创新在于提出了一种具有“无动态遗憾”保证的同步系统辨识与模型预测控制算法。动态遗憾是指相对于一个知道未来所有扰动和系统动态的最优控制器的性能损失。该算法能够保证次线性的动态遗憾，意味着随着时间的推移，算法的性能会逐渐接近最优控制器。此外，使用RKHS建模未知动力学和扰动，并使用随机傅里叶特征进行近似，提高了算法的建模能力和计算效率。

关键设计： * RKHS建模：使用RKHS来表示未知的动力学和扰动，能够捕捉复杂的非线性关系。 * 随机傅里叶特征：使用随机傅里叶特征来近似RKHS，降低了计算复杂度，使其适用于在线学习。 * 最小二乘法：使用最小二乘法在线更新系统模型，简单高效。 * 模型预测控制：使用模型预测控制算法，能够考虑系统的约束条件，并优化未来的控制性能。

🖼️ 关键图片

📊 实验亮点

论文通过仿真和硬件实验验证了算法的有效性。在仿真中，倒立摆实验表明算法能够有效维持杆的直立，即使在模型参数不准确的情况下。四旋翼飞行器实验表明算法能够跟踪参考轨迹，即使存在未建模的空气动力学阻力效应。硬件实验中，四旋翼飞行器在存在未建模的空气动力学阻力效应、地面效应和风扰动的情况下，成功跟踪圆形轨迹，验证了算法的实际应用能力。

🎯 应用场景

该研究成果可应用于各种需要精确控制但系统动力学未知的场景，例如：无人机控制（克服风力扰动和气动效应）、机器人控制（补偿摩擦和惯性不确定性）、自动驾驶（应对路面变化和车辆参数变化）等。该方法能够提高控制系统的鲁棒性和自适应性，降低对系统模型的依赖，具有重要的实际应用价值。

📄 摘要（原文）

We provide an algorithm for the simultaneous system identification and model predictive control of nonlinear systems. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal (non-causal) controller. Particularly, the algorithm enjoys sublinear dynamic regret, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown disturbances and system dynamics will adapt to its actions. The algorithm is self-supervised and applies to control-affine systems with unknown dynamics and disturbances that can be expressed in reproducing kernel Hilbert spaces. Such spaces can model external disturbances and modeling errors that can even be adaptive to the system's state and control input. For example, they can model wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters such as inertia of mechanical systems. The algorithm first generates random Fourier features that are used to approximate the unknown dynamics or disturbances. Then, it employs model predictive control based on the current learned model of the unknown dynamics (or disturbances). The model of the unknown dynamics is updated online using least squares based on the data collected while controlling the system. We validate our algorithm in both hardware experiments and physics-based simulations. The simulations include (i) a cart-pole aiming to maintain the pole upright despite inaccurate model parameters, and (ii) a quadrotor aiming to track reference trajectories despite unmodeled aerodynamic drag effects. The hardware experiments include a quadrotor aiming to track a circular trajectory despite unmodeled aerodynamic drag effects, ground effects, and wind disturbances.

Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理