Sample-Efficient Constrained Reinforcement Learning with General Parameterization

作者: Washim Uddin Mondal, Vaneet Aggarwal

分类: cs.LG, cs.AI

发布日期: 2024-05-17 (更新: 2024-10-31)

期刊: NeurIPS 2024

💡 一句话要点

提出PD-ANPG算法，解决一般参数化约束MDP中的样本效率问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 约束强化学习 样本效率 自然策略梯度 动量加速 原始-对偶算法

📋 核心要点

传统约束强化学习方法在一般参数化策略下，样本效率较低，难以满足实际应用需求。
PD-ANPG算法利用动量加速，在原始-对偶框架下优化策略，提升收敛速度和样本效率。
该算法在理论上证明了其样本复杂度优于现有方法，并在 $ε^{-1}$ 上达到了理论下界。

📝 摘要（中文）

本文研究了约束马尔可夫决策过程（CMDP），其中智能体的目标是最大化无限时间范围内的预期折扣奖励总和，同时确保预期折扣成本总和超过某个阈值。基于动量加速的思想，我们开发了原始-对偶加速自然策略梯度（PD-ANPG）算法，该算法确保了 $ε$ 全局最优性差距和 $ε$ 约束违反，对于一般参数化策略，其样本复杂度为 $\tilde{\mathcal{O}}((1-γ)^{-7}ε^{-2})$，其中 $γ$ 表示折扣因子。这改进了一般参数化CMDP中最先进的样本复杂度，改进因子为 $\mathcal{O}((1-γ)^{-1}ε^{-2})$，并在 $ε^{-1}$ 中达到了理论下界。

🔬 方法详解

问题定义：论文旨在解决约束马尔可夫决策过程（CMDP）中的样本效率问题，尤其是在使用一般参数化策略时。现有的CMDP算法通常需要大量的样本才能达到较好的性能，这限制了它们在实际问题中的应用。现有方法的痛点在于样本复杂度较高，难以在有限的资源下训练出有效的策略。

核心思路：论文的核心思路是利用动量加速技术来提高策略优化的速度和样本效率。通过引入动量项，算法可以更快速地探索策略空间，并更快地收敛到最优策略。此外，论文还采用了原始-对偶框架，将约束优化问题转化为无约束优化问题，从而简化了算法的设计和分析。

技术框架：PD-ANPG算法的整体框架如下：首先，初始化原始变量（策略参数）和对偶变量（约束的拉格朗日乘子）。然后，在每个迭代步骤中，算法执行以下操作：1) 使用当前策略收集样本；2) 计算奖励和成本的梯度估计；3) 使用动量加速的自然策略梯度更新策略参数；4) 更新拉格朗日乘子。该过程迭代进行，直到满足收敛条件。

关键创新：该论文的关键创新在于将动量加速技术应用于约束强化学习，并提出了PD-ANPG算法。与传统的自然策略梯度方法相比，PD-ANPG算法能够更快速地收敛到最优策略，并具有更好的样本效率。此外，该算法在理论上证明了其样本复杂度优于现有方法，并在 $ε^{-1}$ 上达到了理论下界。

关键设计：PD-ANPG算法的关键设计包括：1) 使用自然策略梯度来更新策略参数，以确保策略的单调改进；2) 引入动量项来加速策略优化；3) 使用原始-对偶框架来处理约束条件；4) 采用适当的步长和动量参数，以保证算法的收敛性。具体的参数设置需要根据具体的CMDP问题进行调整。

📊 实验亮点

PD-ANPG算法在一般参数化CMDP中实现了最先进的样本复杂度，相较于现有方法，样本复杂度降低了 $\mathcal{O}((1-γ)^{-1}ε^{-2})$ 倍，并在 $ε^{-1}$ 上达到了理论下界。这意味着在相同的性能要求下，该算法所需的样本量更少，训练效率更高。

🎯 应用场景

该研究成果可应用于资源受限的机器人控制、自动驾驶、金融交易等领域。例如，在机器人控制中，可以利用该算法训练机器人完成特定任务，同时满足能源消耗或安全约束。在金融交易中，可以利用该算法优化投资策略，在风险可控的前提下最大化收益。该研究有助于推动约束强化学习在实际问题中的应用。

📄 摘要（原文）

We consider a constrained Markov Decision Problem (CMDP) where the goal of an agent is to maximize the expected discounted sum of rewards over an infinite horizon while ensuring that the expected discounted sum of costs exceeds a certain threshold. Building on the idea of momentum-based acceleration, we develop the Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG) algorithm that ensures an $ε$ global optimality gap and $ε$ constraint violation with $\tilde{\mathcal{O}}((1-γ)^{-7}ε^{-2})$ sample complexity for general parameterized policies where $γ$ denotes the discount factor. This improves the state-of-the-art sample complexity in general parameterized CMDPs by a factor of $\mathcal{O}((1-γ)^{-1}ε^{-2})$ and achieves the theoretical lower bound in $ε^{-1}$.

Sample-Efficient Constrained Reinforcement Learning with General Parameterization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理