From Curiosity to Competence: How World Models Interact with the Dynamics of Exploration

📄 arXiv: 2507.08210v1 📥 PDF

作者: Fryderyk Mantiuk, Hanqi Zhou, Charley M. Wu

分类: cs.AI

发布日期: 2025-07-10


💡 一句话要点

探索与控制的动态平衡:世界模型驱动智能体自主探索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 世界模型 内在动机 好奇心 能力 自主探索 表征学习

📋 核心要点

  1. 现有强化学习方法在探索未知环境时,难以有效平衡好奇心与环境控制,导致探索效率低下。
  2. 该论文提出一种基于世界模型的智能体,通过学习内部表征来协调好奇心(信息增益)和能力(环境控制)之间的权衡。
  3. 实验表明,该方法能够有效引导智能体在未知环境中进行探索,并揭示了探索与表征学习之间的双向互动关系。

📝 摘要(中文)

智能体如何在探索世界的同时保持对环境的控制?本文探讨了智能体在好奇心(寻求知识的驱动力)和能力(掌握和控制环境的驱动力)之间的平衡。通过桥接认知理论中的内在动机与强化学习,研究了不断演化的内部表征如何调节好奇心(新颖性或信息增益)和能力(赋权)之间的权衡。比较了两种基于模型的智能体,分别使用手工设计的状态抽象(Tabular)或学习内部世界模型(Dreamer)。Tabular智能体显示好奇心和能力以不同的模式引导探索,而同时优先考虑两者可以改善探索。Dreamer智能体揭示了探索和表征学习之间的双向互动,反映了好奇心和能力的发展性协同演化。研究结果将自适应探索形式化为追求未知和可控之间的平衡,为认知理论和高效强化学习提供了见解。

🔬 方法详解

问题定义:论文旨在解决强化学习中智能体如何在探索未知环境时,有效地平衡好奇心(追求新颖性)和能力(控制环境)的问题。现有方法通常难以同时优化这两个目标,导致探索效率低下,或者陷入局部最优。

核心思路:论文的核心思路是利用世界模型来学习环境的内部表征,并基于该表征来指导智能体的探索行为。通过同时考虑好奇心和能力,智能体可以更有效地发现有价值的信息,并学习如何更好地控制环境。这种方法模拟了人类在探索过程中,不断学习和适应环境的认知过程。

技术框架:该研究比较了两种基于模型的智能体:Tabular智能体和Dreamer智能体。Tabular智能体使用手工设计的状态抽象,而Dreamer智能体则通过学习内部世界模型来表征环境。Dreamer智能体使用循环神经网络(RNN)来预测环境的未来状态,并使用变分自编码器(VAE)来学习状态的压缩表示。智能体通过最大化奖励函数来学习策略,该奖励函数同时考虑了好奇心和能力。

关键创新:该论文的关键创新在于揭示了探索和表征学习之间的双向互动关系。Dreamer智能体通过学习内部世界模型,能够更好地理解环境的动态特性,从而更有效地进行探索。同时,探索过程中获得的新信息又可以反过来改进世界模型的学习,从而形成一个正反馈循环。

关键设计:论文中,好奇心通过信息增益来衡量,即智能体预测未来状态的不确定性。能力通过赋权来衡量,即智能体对环境状态的影响程度。奖励函数被设计为好奇心和能力的加权和,权重参数用于调节两者之间的平衡。Dreamer智能体使用DreamerV2架构,包含一个RNN用于状态预测,一个VAE用于状态编码,以及一个Actor-Critic网络用于策略学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,同时考虑好奇心和能力的智能体能够更有效地进行探索。Dreamer智能体在多个benchmark环境中取得了优异的性能,证明了其学习内部世界模型和平衡探索与控制的有效性。与Tabular智能体相比,Dreamer智能体能够更好地适应复杂环境,并学习到更有效的策略。

🎯 应用场景

该研究成果可应用于机器人自主探索、游戏AI、自动驾驶等领域。通过赋予智能体更强的探索能力和环境适应性,可以使其在复杂、未知的环境中更好地完成任务。此外,该研究也为理解人类认知过程提供了新的视角,有助于开发更智能、更人性化的AI系统。

📄 摘要(原文)

What drives an agent to explore the world while also maintaining control over the environment? From a child at play to scientists in the lab, intelligent agents must balance curiosity (the drive to seek knowledge) with competence (the drive to master and control the environment). Bridging cognitive theories of intrinsic motivation with reinforcement learning, we ask how evolving internal representations mediate the trade-off between curiosity (novelty or information gain) and competence (empowerment). We compare two model-based agents using handcrafted state abstractions (Tabular) or learning an internal world model (Dreamer). The Tabular agent shows curiosity and competence guide exploration in distinct patterns, while prioritizing both improves exploration. The Dreamer agent reveals a two-way interaction between exploration and representation learning, mirroring the developmental co-evolution of curiosity and competence. Our findings formalize adaptive exploration as a balance between pursuing the unknown and the controllable, offering insights for cognitive theories and efficient reinforcement learning.