Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents

📄 arXiv: 2407.04221v2 📥 PDF

作者: Sam Earle, Julian Togelius

分类: cs.AI

发布日期: 2024-07-05 (更新: 2024-08-06)

备注: 9 pages, 4 figures


💡 一句话要点

提出Autoverse可进化游戏语言,用于学习鲁棒的具身智能体

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 具身智能 强化学习 开放式学习 游戏AI 环境生成 模仿学习

📋 核心要点

  1. 现有强化学习环境难以兼顾多样性和可控性,限制了智能体的泛化能力。
  2. Autoverse通过可进化游戏规则生成多样化环境,并利用模仿学习加速智能体训练。
  3. 实验表明,该方法提高了智能体在复杂环境中的性能和泛化能力。

📝 摘要(中文)

本文介绍了一种可进化的领域特定语言Autoverse,用于单人2D网格游戏,并展示了其作为开放式学习(OEL)算法的可扩展训练场的用途。Autoverse使用类似细胞自动机的重写规则来描述游戏机制,使其能够表达各种游戏环境(例如,迷宫、地牢、推箱子谜题),这些环境是强化学习(RL)智能体的常用测试平台。每个重写规则都可以表示为一系列简单的卷积,从而允许在GPU上并行化环境,从而大大加速RL训练。利用Autoverse,我们提出通过模仿学习从搜索中快速启动开放式学习。在这种方法中,我们首先进化Autoverse环境(其规则和初始地图拓扑),以最大化贪婪树搜索发现新的最佳解决方案所需的迭代次数,从而产生越来越复杂的环境和游戏轨迹课程。然后,我们使用模仿学习将这些专家游戏轨迹提炼成基于神经网络的策略。最后,我们使用学习到的策略作为开放式RL的起点,其中不断进化新的训练环境,以最大化RL玩家智能体的价值函数误差(代理其后悔,或生成环境的可学习性),发现这种方法提高了最终玩家智能体的性能和泛化性。

🔬 方法详解

问题定义:现有强化学习智能体训练环境通常是预先设定的,缺乏多样性,难以训练出在各种环境中都表现良好的鲁棒智能体。此外,从零开始在复杂环境中训练智能体通常需要大量的计算资源和时间。

核心思路:本文的核心思路是利用可进化的游戏语言Autoverse自动生成多样化的游戏环境,并结合模仿学习和强化学习,从而更有效地训练鲁棒的智能体。通过进化游戏规则,可以创造出各种不同类型的游戏环境,从而增加训练数据的多样性。

技术框架:整体框架包含三个主要阶段:1) 环境进化:使用进化算法搜索Autoverse游戏规则和初始地图,目标是最大化贪婪树搜索找到新解所需的迭代次数,生成难度递增的环境序列。2) 模仿学习:利用贪婪树搜索生成的专家轨迹,通过模仿学习训练一个神经网络策略。3) 开放式强化学习:使用模仿学习得到的策略作为起点,进行开放式强化学习,不断进化新的训练环境,目标是最大化RL智能体的价值函数误差。

关键创新:关键创新在于Autoverse游戏语言本身,它使用类似细胞自动机的重写规则来描述游戏机制,使得游戏环境的生成和演化变得非常灵活和高效。此外,结合进化算法、模仿学习和强化学习,形成了一个完整的开放式学习框架。

关键设计:Autoverse的重写规则被设计成可以表示为一系列简单的卷积操作,从而可以在GPU上并行化环境的计算,显著加速训练过程。价值函数误差被用作衡量环境可学习性的指标,用于指导环境的进化过程。具体参数设置和网络结构在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法通过模仿学习从搜索中快速启动开放式学习,并使用价值函数误差指导环境进化,显著提高了智能体在复杂环境中的性能和泛化能力。具体的性能数据和对比基线在论文中未详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于游戏AI、机器人控制等领域。通过自动生成多样化的训练环境,可以提高智能体在复杂和未知环境中的适应能力。此外,该方法还可以用于设计更具挑战性和趣味性的游戏关卡。

📄 摘要(原文)

We introduce Autoverse, an evolvable, domain-specific language for single-player 2D grid-based games, and demonstrate its use as a scalable training ground for Open-Ended Learning (OEL) algorithms. Autoverse uses cellular-automaton-like rewrite rules to describe game mechanics, allowing it to express various game environments (e.g. mazes, dungeons, sokoban puzzles) that are popular testbeds for Reinforcement Learning (RL) agents. Each rewrite rule can be expressed as a series of simple convolutions, allowing for environments to be parallelized on the GPU, thereby drastically accelerating RL training. Using Autoverse, we propose jump-starting open-ended learning by imitation learning from search. In such an approach, we first evolve Autoverse environments (their rules and initial map topology) to maximize the number of iterations required by greedy tree search to discover a new best solution, producing a curriculum of increasingly complex environments and playtraces. We then distill these expert playtraces into a neural-network-based policy using imitation learning. Finally, we use the learned policy as a starting point for open-ended RL, where new training environments are continually evolved to maximize the RL player agent's value function error (a proxy for its regret, or the learnability of generated environments), finding that this approach improves the performance and generality of resultant player agents.