A Temporally Correlated Latent Exploration for Reinforcement Learning

📄 arXiv: 2412.04775v1 📥 PDF

作者: SuMin Oh, WanSoo Kim, HyunJin Kim

分类: cs.LG, cs.AI

发布日期: 2024-12-06


💡 一句话要点

提出时序相关潜在探索(TeCLE),增强强化学习在噪声环境下的探索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 探索策略 内在奖励 噪声鲁棒性 时间相关性 动作条件潜在空间 好奇心驱动 随机环境

📋 核心要点

  1. 现有基于内在奖励的强化学习探索方法易受环境噪声和随机性的干扰,导致探索效率降低。
  2. TeCLE通过引入动作条件潜在空间和时间相关性,更准确地评估状态的可预测性,避免过度奖励噪声状态。
  3. 实验结果表明,TeCLE在噪声和随机性环境中表现出更强的鲁棒性,且智能体的探索行为受时间相关性影响。

📝 摘要(中文)

高效探索是深度强化学习中长期存在的问题之一。现有方法通常依赖环境提供的外在奖励,或使用内在奖励来增强探索。然而,这些方法容易受到噪声电视(Noisy TV)和随机性的影响。为了解决这个问题,我们提出了时序相关潜在探索(TeCLE),这是一种新颖的内在奖励公式,它采用了动作条件潜在空间和时间相关性。动作条件潜在空间估计状态的概率分布,从而避免为不可预测的状态分配过多的内在奖励,并有效解决上述两个问题。与先前注入时间相关性以进行动作选择的工作不同,所提出的方法将其注入到内在奖励计算中。我们发现,注入的时间相关性决定了智能体的探索行为。各种实验表明,智能体表现良好的环境取决于时间相关性的程度。据我们所知,所提出的TeCLE是第一个考虑动作条件潜在空间和时间相关性以进行好奇心驱动探索的方法。我们证明了所提出的TeCLE在包括Minigrid和随机Atari在内的基准环境中,能够对噪声电视和随机性具有鲁棒性。

🔬 方法详解

问题定义:现有基于内在奖励的强化学习方法在面对具有噪声或随机性的环境时,会错误地将这些不可预测的状态视为新奇状态,从而给予过高的内在奖励,导致智能体浪费大量时间探索这些无意义的状态,降低了学习效率。

核心思路:TeCLE的核心思路是利用动作条件潜在空间来估计状态的概率分布,从而判断状态的可预测性。同时,引入时间相关性,使得智能体更加关注那些在时间上具有一致性的、可预测的状态,避免被随机噪声所干扰。通过这种方式,TeCLE能够更有效地引导智能体探索有价值的状态。

技术框架:TeCLE主要包含以下几个模块:1) 动作条件潜在空间:用于学习状态的概率分布,并预测给定动作后可能到达的状态。2) 内在奖励计算模块:基于动作条件潜在空间预测的概率分布,计算每个状态的内在奖励。概率越低,说明状态越新奇,内在奖励越高。3) 时间相关性注入模块:通过引入时间相关性,使得内在奖励更加平滑,避免被瞬时噪声所影响。4) 强化学习智能体:利用内在奖励和外在奖励,学习最优策略。整体流程是,智能体与环境交互,获取状态和奖励,然后利用动作条件潜在空间和时间相关性计算内在奖励,最后将内在奖励与外在奖励结合,用于更新智能体的策略。

关键创新:TeCLE的关键创新在于同时考虑了动作条件潜在空间和时间相关性,用于内在奖励的计算。与现有方法相比,TeCLE能够更准确地评估状态的可预测性,并有效地过滤掉噪声和随机性带来的干扰。此外,TeCLE将时间相关性注入到内在奖励的计算中,而不是像以前的工作那样注入到动作选择中,从而更好地控制智能体的探索行为。

关键设计:TeCLE的关键设计包括:1) 动作条件潜在空间的网络结构,通常采用变分自编码器(VAE)或生成对抗网络(GAN)。2) 时间相关性的计算方式,可以使用滑动平均或指数加权平均等方法。3) 内在奖励的计算公式,通常基于动作条件潜在空间预测的概率分布,例如使用负对数似然或信息增益。4) 损失函数的设计,需要同时考虑动作条件潜在空间的学习和内在奖励的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TeCLE在Minigrid和Stochastic Atari等基准测试环境中,对噪声电视和随机性具有更强的鲁棒性。具体而言,TeCLE在这些环境中的表现明显优于现有的基于内在奖励的探索方法,例如Random Network Distillation (RND) 和 Intrinsic Curiosity Module (ICM)。实验还表明,通过调整时间相关性的强度,可以控制智能体的探索行为,使其能够更好地适应不同的环境。

🎯 应用场景

TeCLE可应用于各种需要高效探索的强化学习任务中,尤其是在环境噪声较大或具有随机性的场景下,例如机器人导航、游戏AI、自动驾驶等。该方法能够提高智能体的学习效率和鲁棒性,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Efficient exploration remains one of the longstanding problems of deep reinforcement learning. Instead of depending solely on extrinsic rewards from the environments, existing methods use intrinsic rewards to enhance exploration. However, we demonstrate that these methods are vulnerable to Noisy TV and stochasticity. To tackle this problem, we propose Temporally Correlated Latent Exploration (TeCLE), which is a novel intrinsic reward formulation that employs an action-conditioned latent space and temporal correlation. The action-conditioned latent space estimates the probability distribution of states, thereby avoiding the assignment of excessive intrinsic rewards to unpredictable states and effectively addressing both problems. Whereas previous works inject temporal correlation for action selection, the proposed method injects it for intrinsic reward computation. We find that the injected temporal correlation determines the exploratory behaviors of agents. Various experiments show that the environment where the agent performs well depends on the amount of temporal correlation. To the best of our knowledge, the proposed TeCLE is the first approach to consider the action conditioned latent space and temporal correlation for curiosity-driven exploration. We prove that the proposed TeCLE can be robust to the Noisy TV and stochasticity in benchmark environments, including Minigrid and Stochastic Atari.