Model-free Low-Rank Reinforcement Learning via Leveraged Entry-wise Matrix Estimation

作者: Stefan Stojanovic, Yassir Jedra, Alexandre Proutiere

分类: cs.LG

发布日期: 2024-10-30 (更新: 2024-11-10)

备注: Accepted for presentation at the Conference on Neural Information Processing Systems (NeurIPS) 2024

💡 一句话要点

提出LoRa-PI算法以解决低秩强化学习问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 低秩强化学习 无模型学习 策略迭代 样本复杂度 动态系统

📋 核心要点

现有方法在学习低秩动态系统中的最优策略时，样本复杂度较高且依赖于矩阵的相干性，限制了其应用。
论文提出的LoRa-PI算法通过杠杆条目矩阵估计，优化了策略评估过程，降低了样本复杂度。
实验结果表明，LoRa-PI在样本效率上优于现有方法，能够在更宽松的条件下学习到$ ext{ε}$-最优策略。

📝 摘要（中文）

本文考虑在具有低秩潜在结构的受控动态系统中学习$ ext{ε}$-最优策略的问题。我们提出了LoRa-PI（低秩策略迭代），这是一种无模型学习算法，交替进行策略改进和策略评估。在策略评估阶段，算法通过两阶段程序估计当前策略的（状态，动作）值函数对应的低秩矩阵。首先随机均匀采样矩阵的条目，通过谱方法估计其行和列的杠杆分数。然后利用这些分数提取少量重要的行和列，进一步采样其条目。该算法利用这些新样本通过CUR-like方法完成矩阵估计。我们为这一杠杆矩阵估计程序建立了逐项保证，显著地，这些保证不依赖于矩阵的相干性，而仅依赖于其尖锐性。我们的算法在比以前提出的方法更温和的条件下，实现了$ ext{ε}$-最优策略的学习，样本复杂度为$ ilde{O}(rac{S+A}{ ext{poly}(1-γ)ε^2})$。

🔬 方法详解

问题定义：本文旨在解决在具有低秩潜在结构的受控动态系统中学习$ ext{ε}$-最优策略的问题。现有方法通常需要大量样本，并且对矩阵的相干性有较高的依赖性，限制了其在实际应用中的有效性。

核心思路：论文提出的LoRa-PI算法通过引入杠杆条目矩阵估计，优化了策略评估过程。该方法通过随机采样和谱方法有效地识别重要的行和列，从而减少了所需的样本数量。

技术框架：LoRa-PI算法的整体流程包括两个主要阶段：策略改进和策略评估。在策略评估阶段，首先随机采样矩阵条目，然后利用谱方法计算杠杆分数，最后根据这些分数提取重要行列并进行进一步采样，最终完成低秩矩阵的估计。

关键创新：最重要的技术创新在于引入了杠杆条目矩阵估计方法，该方法的逐项保证不依赖于矩阵的相干性，而是基于其尖锐性。这一创新使得LoRa-PI在样本复杂度上优于现有方法。

关键设计：算法中的关键设计包括随机均匀采样、谱方法的应用以及CUR-like矩阵估计技术。通过这些设计，LoRa-PI能够在更宽松的条件下实现$ ext{ε}$-最优策略的学习。

📊 实验亮点

实验结果显示，LoRa-PI算法在样本复杂度上达到了$ ilde{O}(rac{S+A}{ ext{poly}(1-γ)ε^2})$，显著优于传统方法。该算法在更宽松的条件下成功学习到$ ext{ε}$-最优策略，展示了其在低秩强化学习中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、智能制造等需要高效决策的动态系统。LoRa-PI算法的样本效率和适应性使其在实际应用中具有重要价值，能够降低学习成本并提高系统性能。

📄 摘要（原文）

We consider the problem of learning an $\varepsilon$-optimal policy in controlled dynamical systems with low-rank latent structure. For this problem, we present LoRa-PI (Low-Rank Policy Iteration), a model-free learning algorithm alternating between policy improvement and policy evaluation steps. In the latter, the algorithm estimates the low-rank matrix corresponding to the (state, action) value function of the current policy using the following two-phase procedure. The entries of the matrix are first sampled uniformly at random to estimate, via a spectral method, the leverage scores of its rows and columns. These scores are then used to extract a few important rows and columns whose entries are further sampled. The algorithm exploits these new samples to complete the matrix estimation using a CUR-like method. For this leveraged matrix estimation procedure, we establish entry-wise guarantees that remarkably, do not depend on the coherence of the matrix but only on its spikiness. These guarantees imply that LoRa-PI learns an $\varepsilon$-optimal policy using $\widetilde{O}({S+A\over \mathrm{poly}(1-γ)\varepsilon^2})$ samples where $S$ (resp. $A$) denotes the number of states (resp. actions) and $γ$ the discount factor. Our algorithm achieves this order-optimal (in $S$, $A$ and $\varepsilon$) sample complexity under milder conditions than those assumed in previously proposed approaches.

Model-free Low-Rank Reinforcement Learning via Leveraged Entry-wise Matrix Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理