Data-Driven Continuous-Time Linear Quadratic Regulator via Closed-Loop and Reinforcement Learning Parameterizations

作者: Armin Gießler, Felix Thömmes, Sören Hohmann

分类: math.OC, eess.SY

发布日期: 2026-04-30

备注: Submitted to IEEE TAC

💡 一句话要点

提出基于闭环和强化学习参数化的数据驱动连续时间LQR方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 线性二次调节器 数据驱动控制 闭环参数化 强化学习 策略迭代 连续时间系统 凸优化 系统辨识

📋 核心要点

传统LQR依赖精确系统模型，实际应用中模型获取困难或不准确，数据驱动方法旨在解决此问题。
论文核心在于利用闭环和积分强化学习两种参数化方法，从数据中直接学习LQR控制器，无需显式系统辨识。
论文统一分析了两种参数化方法的内在联系，并针对连续时间系统提出了策略迭代和凸优化等具体算法。

📝 摘要（中文）

本文研究了基于两种现有参数化的连续时间线性二次调节器（LQR）问题的数据驱动方法，这两种参数化分别是来自行为系统理论的闭环（CL）参数化和积分强化学习（IRL）参数化。CL参数化通过满足等式约束的矩阵来表征闭环系统。虽然这种参数化已经被广泛研究用于离散时间系统，但我们将关键结果适应于连续时间环境，并开发了一种策略迭代（PI）方案，推导了数据驱动的连续时间代数Riccati方程（CARE），并引入了一种替代的凸问题公式。IRL参数化利用离策略数据来执行策略评估，然后将其用于PI或值迭代。在IRL框架内，我们推导出了策略梯度流，并提出了LQR问题的凸重构。最后，我们对这些参数化进行了统一处理，从而能够系统地理解现有方法并阐明它们的结构关系。

🔬 方法详解

问题定义：传统的连续时间LQR控制器设计依赖于精确的系统模型，这在实际应用中是一个很大的限制。获取精确的模型可能非常困难，或者模型本身会随着时间变化。因此，如何直接从数据中学习LQR控制器，而无需显式地进行系统辨识，是一个重要的研究问题。现有方法可能需要大量的计算资源或对数据的特定假设。

核心思路：论文的核心思路是利用两种不同的参数化方法来表示LQR问题，并基于这些参数化方法设计数据驱动的算法。这两种参数化方法分别是闭环（CL）参数化和积分强化学习（IRL）参数化。通过将LQR问题转化为关于这些参数的优化问题，可以直接从数据中学习控制器参数。

技术框架：整体框架包括两个主要分支，分别对应于CL参数化和IRL参数化。对于CL参数化，论文首先将离散时间的结果推广到连续时间，然后开发了基于策略迭代（PI）的算法，并推导了数据驱动的连续时间代数Riccati方程（CARE）。此外，还提出了一个替代的凸问题公式。对于IRL参数化，论文利用离策略数据进行策略评估，并将其用于PI或值迭代。论文还推导了策略梯度流，并提出了LQR问题的凸重构。最后，论文对这两种参数化方法进行了统一处理，分析了它们之间的结构关系。

关键创新：论文的关键创新在于：(1) 将闭环参数化方法从离散时间推广到连续时间，并提出了相应的策略迭代算法和凸优化公式；(2) 在IRL框架下，推导了策略梯度流，并提出了LQR问题的凸重构；(3) 对闭环和积分强化学习两种参数化方法进行了统一处理，揭示了它们之间的内在联系。与现有方法相比，该方法能够更有效地利用数据，并降低对数据质量的要求。

关键设计：在CL参数化中，关键在于找到满足特定等式约束的矩阵，这可以通过求解凸优化问题来实现。在IRL参数化中，关键在于如何有效地进行策略评估，这可以通过利用离策略数据来实现。论文中提出的凸重构方法可以将非凸的LQR问题转化为凸优化问题，从而更容易求解。具体的参数设置取决于具体的系统和数据，需要根据实际情况进行调整。

🖼️ 关键图片

📊 实验亮点

论文推导了数据驱动的连续时间代数Riccati方程，并提出了LQR问题的凸重构，使得问题更容易求解。通过统一处理闭环和积分强化学习两种参数化方法，揭示了它们之间的内在联系，为进一步研究数据驱动的控制方法提供了理论基础。具体的实验结果（未在摘要中提及）将进一步验证所提出方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要精确控制的领域，例如机器人控制、无人机控制、过程控制和电力系统控制。通过数据驱动的方法，可以降低对系统模型的依赖，提高控制器的鲁棒性和适应性。未来的研究方向包括将该方法扩展到非线性系统和具有约束的系统。

📄 摘要（原文）

This paper studies data-driven approaches to the continuous-time linear quadratic regulator (LQR) problem based on two existing parameterizations, namely a closed-loop (CL) parameterization from behavioral system theory and an integral reinforcement learning (IRL) parameterization. The CL parameterization characterizes the closed-loop system via a matrix that satisfies equality constraints. While this parameterization has been extensively studied for discrete-time systems, we adapt key results to the continuous-time setting and develop a policy iteration (PI) scheme, derive a data-driven continuous-time algebraic Riccati equation (CARE), and introduce an alternative convex problem formulation. The IRL parameterization utilizes off-policy data to perform policy evaluation, which is then used for PI or value iteration. Within the IRL framework, we derive a policy gradient flow and propose convex reformulations of the LQR problem. Finally, we provide a unified treatment of these parameterizations that enables a systematic understanding of existing approaches and clarifies their structural relationships.

Data-Driven Continuous-Time Linear Quadratic Regulator via Closed-Loop and Reinforcement Learning Parameterizations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理