World Model Agents with Change-Based Intrinsic Motivation

📄 arXiv: 2503.21047v1 📥 PDF

作者: Jeremias Ferrao, Rafael Cunha

分类: cs.LG

发布日期: 2025-03-26

备注: Submitted to Northern Lights Deep Learning Conference 2025


💡 一句话要点

探索性奖励驱动的世界模型智能体,提升稀疏奖励环境下的学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 内在动机 世界模型 稀疏奖励 探索策略 迁移学习 DreamerV3

📋 核心要点

  1. 稀疏奖励环境是强化学习的难题,现有方法难以有效探索和学习。
  2. 论文将Change Based Exploration Transfer (CBET) 适配于DreamerV3等世界模型算法,利用内在动机提升探索效率。
  3. 实验表明,CBET在Crafter等复杂环境中能提升DreamerV3的回报,但在Minigrid等简单环境中可能降低回报。

📝 摘要(中文)

在稀疏奖励环境中,强化学习面临着反馈稀缺的重大挑战。内在动机和迁移学习是解决这一问题的有效策略。Change Based Exploration Transfer (CBET) 结合了这两种方法,并在无模型算法中展现了潜力,但其在现代算法中的有效性仍有待研究。本文将CBET适配于世界模型算法,如DreamerV3,并在Crafter和Minigrid的稀疏奖励环境中,比较了DreamerV3和IMPALA智能体在有无CBET情况下的性能。结果表明,CBET有可能提高DreamerV3在Crafter中的回报,但在Minigrid中,该算法获得了次优策略,且CBET进一步降低了回报。同样,迁移学习实验表明,使用内在奖励预训练DreamerV3并不能立即获得在Minigrid中最大化外在奖励的策略。总体而言,CBET对DreamerV3在更复杂的环境(如Crafter)中产生了积极影响,但在Minigrid等环境中可能产生不利影响。在后一种情况下,CBET在DreamerV3中促进的行为可能与环境的任务目标不一致,从而导致回报减少和次优策略。

🔬 方法详解

问题定义:在稀疏奖励的强化学习环境中,智能体难以获得有效的反馈信号,导致探索效率低下,学习速度缓慢。现有的方法,如单纯的强化学习算法,往往难以在这些环境中找到最优策略。CBET虽然在无模型算法中展现了潜力,但在现代世界模型算法中的效果需要进一步研究。

核心思路:论文的核心思路是将Change Based Exploration Transfer (CBET) 这种基于变化的内在动机方法,与世界模型算法(如DreamerV3)相结合。CBET通过奖励环境中发生的变化来驱动智能体的探索,鼓励智能体尝试新的行为并发现新的状态。这种内在动机可以弥补稀疏奖励环境中的反馈不足,引导智能体更有效地探索环境。

技术框架:整体框架包括以下几个主要模块:1) 环境交互模块:智能体与环境进行交互,收集经验数据。2) 世界模型模块:使用DreamerV3等算法构建环境的预测模型,学习环境的动态特性。3) 内在奖励模块:使用CBET计算内在奖励,奖励智能体环境中发生的变化。4) 策略优化模块:结合外在奖励和内在奖励,优化智能体的策略,使其能够最大化总回报。

关键创新:论文的关键创新在于将CBET成功地适配于世界模型算法,并验证了其在不同环境中的效果。与传统的基于随机探索的方法相比,CBET能够更有效地引导智能体探索环境,发现有价值的状态。此外,论文还分析了CBET在不同环境中的优缺点,为未来的研究提供了指导。

关键设计:CBET的具体实现细节包括:1) 使用环境状态的变化作为内在奖励的信号。2) 对内在奖励进行归一化处理,以避免其对策略优化产生过大的影响。3) 结合外在奖励和内在奖励,使用强化学习算法(如DreamerV3)优化智能体的策略。论文还对CBET的参数进行了调整,以适应不同的环境。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CBET能够有效提高DreamerV3在Crafter等复杂环境中的性能,但在Minigrid等简单环境中可能会降低性能。在Crafter环境中,使用CBET的DreamerV3的回报显著高于不使用CBET的DreamerV3。这表明CBET能够有效地引导智能体探索环境,发现有价值的状态。然而,在Minigrid环境中,CBET可能会导致智能体陷入次优策略,降低其回报。这可能是因为CBET在简单环境中促进的行为与任务目标不一致。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过引入内在动机,可以使智能体在缺乏外部奖励信号的情况下,自主地探索和学习,从而提高其在复杂环境中的适应性和泛化能力。该方法对于解决现实世界中许多奖励稀疏或延迟的任务具有重要意义。

📄 摘要(原文)

Sparse reward environments pose a significant challenge for reinforcement learning due to the scarcity of feedback. Intrinsic motivation and transfer learning have emerged as promising strategies to address this issue. Change Based Exploration Transfer (CBET), a technique that combines these two approaches for model-free algorithms, has shown potential in addressing sparse feedback but its effectiveness with modern algorithms remains understudied. This paper provides an adaptation of CBET for world model algorithms like DreamerV3 and compares the performance of DreamerV3 and IMPALA agents, both with and without CBET, in the sparse reward environments of Crafter and Minigrid. Our tabula rasa results highlight the possibility of CBET improving DreamerV3's returns in Crafter but the algorithm attains a suboptimal policy in Minigrid with CBET further reducing returns. In the same vein, our transfer learning experiments show that pre-training DreamerV3 with intrinsic rewards does not immediately lead to a policy that maximizes extrinsic rewards in Minigrid. Overall, our results suggest that CBET provides a positive impact on DreamerV3 in more complex environments like Crafter but may be detrimental in environments like Minigrid. In the latter case, the behaviours promoted by CBET in DreamerV3 may not align with the task objectives of the environment, leading to reduced returns and suboptimal policies.