Mini Honor of Kings: A Lightweight Environment for Multi-Agent Reinforcement Learning

📄 arXiv: 2406.03978v2 📥 PDF

作者: Lin Liu, Jian Zhao, Cheng Hu, Zhengtao Cao, Youpeng Zhao, Zhenbin Ye, Meng Meng, Wenjun Wang, Zhaofeng He, Houqiang Li, Xia Lin, Lanxiao Huang

分类: cs.MA, cs.LG

发布日期: 2024-06-06 (更新: 2024-06-16)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Mini HoK轻量级环境,促进多智能体强化学习研究与算法创新。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 轻量级环境 王者荣耀 地图编辑器 游戏AI

📋 核心要点

  1. 现有MARL研究环境存在定制性差、计算资源需求高以及环境过于简化的问题,限制了算法的探索和发展。
  2. 设计轻量级Mini HoK环境,并提供王者荣耀地图编辑器,降低实验门槛,鼓励研究者定制创新地图。
  3. 实验表明,现有MARL算法在Mini HoK环境中仍有提升空间,为算法研究提供了新的挑战和机遇。

📝 摘要(中文)

本文针对多智能体强化学习(MARL)研究环境面临的定制性有限、计算需求高和过度简化等问题,提出了Mini Honor of Kings (Mini HoK),这是一个轻量级的环境,并首次公开发布了王者荣耀的地图编辑器。Mini HoK具有高效性,允许在个人电脑或笔记本电脑上运行实验,同时对现有的MARL算法提出了足够的挑战。通过在常用MARL算法上测试该环境,证明了这些算法尚未找到最优解。这有助于在研究社区内传播和推进MARL方法。此外,希望更多的研究人员利用王者荣耀地图编辑器来开发创新且具有科学价值的新地图。代码和用户手册已公开。

🔬 方法详解

问题定义:现有的多智能体强化学习研究通常依赖于游戏环境,但这些环境往往存在三个主要问题:一是定制性不足,研究者难以根据自身需求修改环境;二是计算资源需求高,需要高性能服务器才能运行复杂的环境;三是环境过度简化,与真实场景存在较大差距,导致算法的泛化能力受限。这些问题阻碍了MARL算法的快速发展和广泛应用。

核心思路:本文的核心思路是创建一个轻量级且具有足够挑战性的MARL环境,同时提供灵活的地图编辑工具,降低研究门槛,鼓励研究者参与环境的定制和算法的创新。通过简化游戏逻辑和资源需求,使得实验可以在普通个人电脑上运行,从而加速算法的迭代和验证。

技术框架:Mini HoK环境基于王者荣耀游戏,但进行了大幅简化。它包含以下主要模块:1) 游戏引擎:负责模拟游戏世界的运行,包括英雄的移动、攻击、技能释放等;2) MARL接口:提供与MARL算法交互的接口,包括状态观测、动作执行、奖励计算等;3) 地图编辑器:允许用户自定义地图,包括地形、建筑、野怪等;4) 算法评估模块:用于评估不同MARL算法在Mini HoK环境中的性能。整体流程是:研究者使用地图编辑器创建或修改地图,然后使用MARL算法训练智能体,最后通过算法评估模块评估算法的性能。

关键创新:Mini HoK的关键创新在于其轻量级的设计和灵活的地图编辑功能。与现有的MARL环境相比,Mini HoK降低了计算资源需求,使得更多的研究者可以参与到MARL研究中。同时,地图编辑功能允许研究者根据自身的研究目标定制环境,从而更好地探索MARL算法的性能。

关键设计:Mini HoK在设计上进行了多项优化,以降低计算资源需求。例如,简化了英雄的模型和动画,减少了游戏世界的复杂度,优化了游戏引擎的性能。在MARL接口方面,提供了丰富的状态观测信息,包括英雄的位置、血量、技能冷却等,以及灵活的动作空间,包括移动、攻击、技能释放等。奖励函数的设计也至关重要,需要平衡探索和利用,鼓励智能体学习合作和竞争。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,现有的MARL算法在Mini HoK环境中仍有较大的提升空间。例如,常用的MARL算法在某些地图上的胜率低于预期,表明这些算法尚未找到最优解。这为研究者提供了新的研究方向,例如探索更有效的合作策略、更鲁棒的探索方法等。Mini HoK环境为MARL算法的研究提供了一个有价值的平台。

🎯 应用场景

Mini HoK环境可应用于多智能体强化学习算法的研究与开发,例如合作博弈、竞争策略、资源分配等。该环境的轻量级特性使其易于部署和使用,有助于加速MARL算法在游戏AI、机器人控制、交通调度等领域的应用。未来,可以基于Mini HoK环境开发更复杂的场景和任务,进一步推动MARL技术的发展。

📄 摘要(原文)

Games are widely used as research environments for multi-agent reinforcement learning (MARL), but they pose three significant challenges: limited customization, high computational demands, and oversimplification. To address these issues, we introduce the first publicly available map editor for the popular mobile game Honor of Kings and design a lightweight environment, Mini Honor of Kings (Mini HoK), for researchers to conduct experiments. Mini HoK is highly efficient, allowing experiments to be run on personal PCs or laptops while still presenting sufficient challenges for existing MARL algorithms. We have tested our environment on common MARL algorithms and demonstrated that these algorithms have yet to find optimal solutions within this environment. This facilitates the dissemination and advancement of MARL methods within the research community. Additionally, we hope that more researchers will leverage the Honor of Kings map editor to develop innovative and scientifically valuable new maps. Our code and user manual are available at: https://github.com/tencent-ailab/mini-hok.