Data-Driven Continuous-Time Linear Quadratic Regulator via Closed-Loop and Reinforcement Learning Parameterizations

📄 arXiv: 2604.27922v1 📥 PDF

作者: Armin Gießler, Felix Thömmes, Sören Hohmann

分类: math.OC, eess.SY

发布日期: 2026-04-30

备注: Submitted to IEEE TAC


💡 一句话要点

提出基于闭环和强化学习参数化的数据驱动连续时间LQR方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 线性二次调节器 数据驱动控制 闭环参数化 强化学习 策略迭代 连续时间系统 凸优化 系统辨识

📋 核心要点

  1. 传统LQR依赖精确系统模型,实际应用中模型获取困难或不准确,数据驱动方法旨在解决此问题。
  2. 论文核心在于利用闭环和积分强化学习两种参数化方法,从数据中直接学习LQR控制器,无需显式系统辨识。
  3. 论文统一分析了两种参数化方法的内在联系,并针对连续时间系统提出了策略迭代和凸优化等具体算法。

📝 摘要(中文)

本文研究了基于两种现有参数化的连续时间线性二次调节器(LQR)问题的数据驱动方法,这两种参数化分别是来自行为系统理论的闭环(CL)参数化和积分强化学习(IRL)参数化。CL参数化通过满足等式约束的矩阵来表征闭环系统。虽然这种参数化已经被广泛研究用于离散时间系统,但我们将关键结果适应于连续时间环境,并开发了一种策略迭代(PI)方案,推导了数据驱动的连续时间代数Riccati方程(CARE),并引入了一种替代的凸问题公式。IRL参数化利用离策略数据来执行策略评估,然后将其用于PI或值迭代。在IRL框架内,我们推导出了策略梯度流,并提出了LQR问题的凸重构。最后,我们对这些参数化进行了统一处理,从而能够系统地理解现有方法并阐明它们的结构关系。

🔬 方法详解

问题定义:传统的连续时间LQR控制器设计依赖于精确的系统模型,这在实际应用中是一个很大的限制。获取精确的模型可能非常困难,或者模型本身会随着时间变化。因此,如何直接从数据中学习LQR控制器,而无需显式地进行系统辨识,是一个重要的研究问题。现有方法可能需要大量的计算资源或对数据的特定假设。

核心思路:论文的核心思路是利用两种不同的参数化方法来表示LQR问题,并基于这些参数化方法设计数据驱动的算法。这两种参数化方法分别是闭环(CL)参数化和积分强化学习(IRL)参数化。通过将LQR问题转化为关于这些参数的优化问题,可以直接从数据中学习控制器参数。

技术框架:整体框架包括两个主要分支,分别对应于CL参数化和IRL参数化。对于CL参数化,论文首先将离散时间的结果推广到连续时间,然后开发了基于策略迭代(PI)的算法,并推导了数据驱动的连续时间代数Riccati方程(CARE)。此外,还提出了一个替代的凸问题公式。对于IRL参数化,论文利用离策略数据进行策略评估,并将其用于PI或值迭代。论文还推导了策略梯度流,并提出了LQR问题的凸重构。最后,论文对这两种参数化方法进行了统一处理,分析了它们之间的结构关系。

关键创新:论文的关键创新在于:(1) 将闭环参数化方法从离散时间推广到连续时间,并提出了相应的策略迭代算法和凸优化公式;(2) 在IRL框架下,推导了策略梯度流,并提出了LQR问题的凸重构;(3) 对闭环和积分强化学习两种参数化方法进行了统一处理,揭示了它们之间的内在联系。与现有方法相比,该方法能够更有效地利用数据,并降低对数据质量的要求。

关键设计:在CL参数化中,关键在于找到满足特定等式约束的矩阵,这可以通过求解凸优化问题来实现。在IRL参数化中,关键在于如何有效地进行策略评估,这可以通过利用离策略数据来实现。论文中提出的凸重构方法可以将非凸的LQR问题转化为凸优化问题,从而更容易求解。具体的参数设置取决于具体的系统和数据,需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文推导了数据驱动的连续时间代数Riccati方程,并提出了LQR问题的凸重构,使得问题更容易求解。通过统一处理闭环和积分强化学习两种参数化方法,揭示了它们之间的内在联系,为进一步研究数据驱动的控制方法提供了理论基础。具体的实验结果(未在摘要中提及)将进一步验证所提出方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要精确控制的领域,例如机器人控制、无人机控制、过程控制和电力系统控制。通过数据驱动的方法,可以降低对系统模型的依赖,提高控制器的鲁棒性和适应性。未来的研究方向包括将该方法扩展到非线性系统和具有约束的系统。

📄 摘要(原文)

This paper studies data-driven approaches to the continuous-time linear quadratic regulator (LQR) problem based on two existing parameterizations, namely a closed-loop (CL) parameterization from behavioral system theory and an integral reinforcement learning (IRL) parameterization. The CL parameterization characterizes the closed-loop system via a matrix that satisfies equality constraints. While this parameterization has been extensively studied for discrete-time systems, we adapt key results to the continuous-time setting and develop a policy iteration (PI) scheme, derive a data-driven continuous-time algebraic Riccati equation (CARE), and introduce an alternative convex problem formulation. The IRL parameterization utilizes off-policy data to perform policy evaluation, which is then used for PI or value iteration. Within the IRL framework, we derive a policy gradient flow and propose convex reformulations of the LQR problem. Finally, we provide a unified treatment of these parameterizations that enables a systematic understanding of existing approaches and clarifies their structural relationships.