Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control

📄 arXiv: 2505.09057v1 📥 PDF

作者: Shivam Bajaj, Prateek Jaiswal, Vijay Gupta

分类: eess.SY

发布日期: 2025-05-14


💡 一句话要点

提出基于离线数据的在线线性二次控制方法以解决Sim2real问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 线性二次调节器 汤普森采样 Sim2real 控制系统 动态估计 贝叶斯遗憾 离线数据

📋 核心要点

  1. 现有方法在面对Sim2real差距时,控制器的稳定性和性能可能受到严重影响,尤其是在系统矩阵未知的情况下。
  2. 本文提出的算法结合了汤普森采样,利用来自不同系统的状态-动作对轨迹,增强了对动态系统的理解和控制能力。
  3. 实验结果表明,所提算法在贝叶斯遗憾方面表现优异,尤其在系统相似性较高时,显著优于传统方法。

📝 摘要(中文)

在控制系统中,模拟学习与真实系统之间的“Sim2real差距”可能导致稳定性和性能的损失。本文针对线性二次调节器(LQR)问题,提出了一种新算法,利用来自不同未知系统的状态-动作对的轨迹数据。该算法基于汤普森采样,结合了动态系统的均值和不确定性。我们证明该算法在经过T个时间步后,能够实现$ ilde{ ext{O}}({f(S,M_δ) ext{sqrt}{T/S}})$的贝叶斯遗憾,当$M_δ$足够小的时候,算法的贝叶斯遗憾为$ ilde{ ext{O}}({ ext{sqrt}{T/S}})$,优于不利用轨迹的简单策略。

🔬 方法详解

问题定义:本文解决的是在未知系统矩阵的情况下,如何有效利用来自其他系统的离线数据来提高线性二次调节器(LQR)的控制性能。现有方法在Sim2real差距下,往往无法有效利用这些离线数据,导致控制器性能下降。

核心思路:论文的核心思路是通过汤普森采样方法,结合来自不同未知系统的状态-动作对轨迹,来估计系统动态的均值和不确定性,从而优化控制策略。这样的设计旨在减少Sim2real差距带来的负面影响。

技术框架:整体方法包括数据收集、动态估计和控制策略优化三个主要模块。首先收集目标系统的状态-动作对及其他系统的轨迹数据;然后通过汤普森采样估计系统动态;最后基于估计结果优化控制策略。

关键创新:最重要的技术创新在于利用来自不同系统的轨迹数据,通过不确定性量化来提升控制器的鲁棒性。这与传统方法的主要区别在于,传统方法往往只依赖于目标系统的数据,而忽视了其他系统的潜在信息。

关键设计:算法中关键的参数设置包括轨迹长度$S$和系统间的不相似性$M_δ$,损失函数设计为贝叶斯遗憾,确保在优化过程中兼顾均值和不确定性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,所提出的算法在贝叶斯遗憾方面达到了$ ilde{ ext{O}}({ ext{sqrt}{T/S}})$,在$M_δ$较小的情况下,优于不利用轨迹的简单策略,提升幅度显著,验证了算法的有效性和鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和工业自动化等领域。通过有效利用离线数据,能够显著提升控制系统在真实环境中的表现,降低开发成本和时间,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

``Sim2real gap", in which the system learned in simulations is not the exact representation of the real system, can lead to loss of stability and performance when controllers learned using data from the simulated system are used on the real system. In this work, we address this challenge in the linear quadratic regulator (LQR) setting. Specifically, we consider an LQR problem for a system with unknown system matrices. Along with the state-action pairs from the system to be controlled, a trajectory of length $S$ of state-action pairs from a different unknown system is available. Our proposed algorithm is constructed upon Thompson sampling and utilizes the mean as well as the uncertainty of the dynamics of the system from which the trajectory of length $S$ is obtained. We establish that the algorithm achieves $\tilde{\mathcal{O}}({f(S,M_δ)\sqrt{T/S}})$ Bayes regret after $T$ time steps, where $M_δ$ characterizes the \emph{dissimilarity} between the two systems and $f(S,M_δ)$ is a function of $S$ and $M_δ$. When $M_δ$ is sufficiently small, the proposed algorithm achieves $\tilde{\mathcal{O}}({\sqrt{T/S}})$ Bayes regret and outperforms a naive strategy which does not utilize the available trajectory.