Constrained Intrinsic Motivation for Reinforcement Learning

📄 arXiv: 2407.09247v1 📥 PDF

作者: Xiang Zheng, Xingjun Ma, Chao Shen, Cong Wang

分类: cs.AI

发布日期: 2024-07-12

备注: Accepted by IJCAI 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出约束内在动机(CIM)以提升强化学习在无奖励预训练和探索任务中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 内在动机 无奖励预训练 探索 约束优化

📋 核心要点

  1. 现有内在动机方法在无奖励预训练中存在技能单一、状态覆盖不足和样本效率低下的问题,在内在动机探索中存在次优性。
  2. 论文提出约束内在动机(CIM),通过约束优化内在奖励,分别提升无奖励预训练中的技能发现和内在动机探索中的策略学习。
  3. 实验表明,CIM在MuJoCo机器人环境中显著提升了无监督技能发现的技能多样性、状态覆盖和微调性能,以及内在奖励的利用率。

📝 摘要(中文)

本文研究了在无奖励预训练(RFPT)和内在动机探索(EIM)任务中使用内在动机(IM)进行强化学习时出现的两个基本问题:1)如何在RFPT任务中设计有效的内在目标;2)如何减少内在目标在EIM任务中引入的偏差。现有的IM方法在RFPT任务中存在静态技能、状态覆盖有限、样本效率低等问题,在EIM任务中存在次优性问题。为了解决这些问题,我们分别针对RFPT和EIM任务提出了约束内在动机(CIM):1)RFPT的CIM最大化条件状态熵的下界,并对状态编码器网络施加对齐约束,以实现高效的动态和多样化技能发现以及状态覆盖最大化;2)EIM的CIM利用约束策略优化自适应地调整内在目标的系数,以减轻内在目标带来的干扰。在各种MuJoCo机器人环境中,实验结果表明,在技能多样性、状态覆盖和微调性能方面,用于RFPT的CIM大大超过了十五种用于无监督技能发现的IM方法。此外,我们展示了当从一开始就暴露任务奖励时,用于EIM的CIM在赎回内在奖励方面的有效性。代码可在https://github.com/x-zheng16/CIM获取。

🔬 方法详解

问题定义:论文旨在解决强化学习中,利用内在动机进行无奖励预训练(RFPT)和内在动机探索(EIM)时遇到的问题。现有内在动机方法在RFPT中存在技能单一、状态覆盖不足、样本效率低下的问题,难以学习到多样化的技能;在EIM中,内在奖励可能会分散智能体的注意力,导致次优策略。

核心思路:论文的核心思路是通过约束优化内在奖励,来解决上述问题。对于RFPT,通过最大化条件状态熵的下界,并对状态编码器施加对齐约束,鼓励发现多样化的技能并最大化状态覆盖。对于EIM,通过约束策略优化,自适应地调整内在奖励的系数,从而减轻内在奖励带来的干扰。

技术框架:CIM包含两个主要部分,分别针对RFPT和EIM任务: 1. CIM for RFPT:首先使用状态编码器将原始状态映射到潜在空间,然后最大化潜在空间中条件状态熵的下界,同时施加对齐约束,保证编码器学习到有意义的表示。 2. CIM for EIM:使用约束策略优化框架,自适应地调整内在奖励的系数,平衡内在奖励和外部奖励之间的关系。

关键创新:论文的关键创新在于提出了约束内在动机(CIM)这一概念,并将其应用于RFPT和EIM任务。通过约束优化内在奖励,有效地解决了现有方法中存在的技能单一、状态覆盖不足和内在奖励干扰等问题。与现有方法相比,CIM能够学习到更加多样化的技能,并获得更好的策略。

关键设计: * RFPT的CIM:使用变分推断来近似条件状态熵,并使用对抗训练来施加对齐约束。 * EIM的CIM:使用KL散度约束来限制策略更新的幅度,并使用拉格朗日乘子法来求解约束优化问题。内在奖励系数的调整基于策略对内在奖励的敏感度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MuJoCo机器人环境中,CIM for RFPT在技能多样性、状态覆盖和微调性能方面显著优于15种现有的内在动机方法。CIM for EIM能够有效地利用内在奖励,并在任务奖励暴露后获得更好的性能。例如,在多个MuJoCo任务上,CIM for EIM 能够达到与使用真实奖励训练的策略相媲美的性能。

🎯 应用场景

该研究成果可应用于机器人自主探索、游戏AI、自动驾驶等领域。通过无奖励预训练,机器人可以在未知环境中学习到各种有用的技能,从而更好地适应不同的任务。在游戏AI中,可以利用内在动机鼓励智能体探索游戏世界,发现新的策略和玩法。在自动驾驶中,可以利用内在动机来提高自动驾驶系统在复杂环境中的适应能力。

📄 摘要(原文)

This paper investigates two fundamental problems that arise when utilizing Intrinsic Motivation (IM) for reinforcement learning in Reward-Free Pre-Training (RFPT) tasks and Exploration with Intrinsic Motivation (EIM) tasks: 1) how to design an effective intrinsic objective in RFPT tasks, and 2) how to reduce the bias introduced by the intrinsic objective in EIM tasks. Existing IM methods suffer from static skills, limited state coverage, sample inefficiency in RFPT tasks, and suboptimality in EIM tasks. To tackle these problems, we propose \emph{Constrained Intrinsic Motivation (CIM)} for RFPT and EIM tasks, respectively: 1) CIM for RFPT maximizes the lower bound of the conditional state entropy subject to an alignment constraint on the state encoder network for efficient dynamic and diverse skill discovery and state coverage maximization; 2) CIM for EIM leverages constrained policy optimization to adaptively adjust the coefficient of the intrinsic objective to mitigate the distraction from the intrinsic objective. In various MuJoCo robotics environments, we empirically show that CIM for RFPT greatly surpasses fifteen IM methods for unsupervised skill discovery in terms of skill diversity, state coverage, and fine-tuning performance. Additionally, we showcase the effectiveness of CIM for EIM in redeeming intrinsic rewards when task rewards are exposed from the beginning. Our code is available at https://github.com/x-zheng16/CIM.