Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking

📄 arXiv: 2406.03704v2 📥 PDF

作者: Roland Stolz, Hanna Krasowski, Jakob Thumm, Michael Eichelbeck, Philipp Gassert, Matthias Althoff

分类: cs.LG, eess.SY

发布日期: 2024-06-06 (更新: 2024-11-05)


💡 一句话要点

提出连续动作掩码方法,通过聚焦相关动作空间提升强化学习效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 连续动作空间 动作掩码 策略优化 控制任务

📋 核心要点

  1. 传统强化学习在连续动作空间中探索效率低,大量算力浪费在不相关动作上。
  2. 论文提出连续动作掩码方法,根据状态动态调整动作空间,聚焦相关动作,提升学习效率。
  3. 实验证明,该方法在多个控制任务中,相比基线方法,能更快收敛并获得更高奖励。

📝 摘要(中文)

强化学习中,连续动作空间通常被定义为多维区间。虽然这些区间能较好地反映任务的动作边界,但由于全局动作空间通常很大,导致频繁探索不相关的动作,从而给学习带来挑战。然而,少量任务知识足以识别出显著更小的、特定于状态的相关动作集合。将学习集中在这些相关动作上可以显著提高训练效率和效果。本文提出将学习集中在相关动作集合上,并引入三种连续动作掩码方法,用于精确地将动作空间映射到状态相关的相关动作集合。因此,我们的方法确保只执行相关动作,增强了强化学习智能体的可预测性,并使其能够用于安全关键型应用。我们进一步推导了所提出的方法对策略梯度的影响。使用近端策略优化(PPO),我们在四个控制任务上评估了我们的方法,其中相关动作集合是基于系统动力学和相关状态集合计算的。实验表明,三种动作掩码方法比没有动作掩码的基线方法获得了更高的最终奖励,并收敛得更快。

🔬 方法详解

问题定义:强化学习在连续动作空间中面临探索效率低下的问题。传统的连续动作空间通常定义为多维区间,虽然覆盖了所有可能的动作,但也包含了大量与当前状态无关的动作。智能体在训练过程中会花费大量时间探索这些不相关的动作,导致学习效率低下,收敛速度慢。尤其是在安全关键型应用中,探索不相关动作可能导致危险行为。

核心思路:论文的核心思路是利用任务知识,根据当前状态动态地缩小动作空间,只保留与当前状态相关的动作。通过这种方式,智能体可以避免探索不相关的动作,从而提高学习效率和安全性。这种方法类似于在离散动作空间中使用动作掩码,但将其扩展到了连续动作空间。

技术框架:该方法的核心在于如何根据当前状态确定相关动作集合,并将其映射到原始动作空间。论文提出了三种连续动作掩码方法,具体实现细节未知。整体流程是:首先,根据系统动力学和相关状态集合计算出当前状态下的相关动作集合;然后,使用三种动作掩码方法之一将原始动作空间映射到该相关动作集合;最后,智能体在映射后的动作空间中进行探索和学习。策略梯度会根据所选择的掩码方法进行调整。

关键创新:该论文的关键创新在于提出了连续动作掩码的概念,并设计了三种具体的实现方法。与传统的连续动作空间强化学习方法相比,该方法能够显著减少不相关动作的探索,提高学习效率和安全性。这是从动作空间层面进行优化的思路,与以往的奖励塑造等方法不同。

关键设计:论文中提到了三种连续动作掩码方法,但具体实现细节未知。关键设计包括:如何定义相关状态集合,如何根据系统动力学计算相关动作集合,以及如何设计有效的映射函数将原始动作空间映射到相关动作集合。此外,策略梯度的调整也是一个关键的技术细节,需要根据所选择的掩码方法进行精确推导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的三种连续动作掩码方法在四个控制任务中均优于没有动作掩码的基线方法。具体而言,使用动作掩码的智能体能够更快地收敛,并获得更高的最终奖励。这表明该方法能够有效地提高强化学习的效率和性能,具体提升幅度未知。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的强化学习控制任务中,例如自动驾驶、机器人控制、飞行器控制等。通过限制智能体的动作空间,可以避免其执行危险或无效的动作,从而提高系统的安全性和可靠性。此外,该方法还可以加速强化学习的训练过程,降低计算成本。

📄 摘要(原文)

Continuous action spaces in reinforcement learning (RL) are commonly defined as multidimensional intervals. While intervals usually reflect the action boundaries for tasks well, they can be challenging for learning because the typically large global action space leads to frequent exploration of irrelevant actions. Yet, little task knowledge can be sufficient to identify significantly smaller state-specific sets of relevant actions. Focusing learning on these relevant actions can significantly improve training efficiency and effectiveness. In this paper, we propose to focus learning on the set of relevant actions and introduce three continuous action masking methods for exactly mapping the action space to the state-dependent set of relevant actions. Thus, our methods ensure that only relevant actions are executed, enhancing the predictability of the RL agent and enabling its use in safety-critical applications. We further derive the implications of the proposed methods on the policy gradient. Using proximal policy optimization (PPO), we evaluate our methods on four control tasks, where the relevant action set is computed based on the system dynamics and a relevant state set. Our experiments show that the three action masking methods achieve higher final rewards and converge faster than the baseline without action masking.