Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
作者: Yun Qu, Boyuan Wang, Jianzhun Shao, Yuhang Jiang, Chen Chen, Zhenbin Ye, Lin Liu, Junfeng Yang, Lin Lai, Hongyang Qin, Minwen Deng, Juchao Zhuo, Deheng Ye, Qiang Fu, Wei Yang, Guang Yang, Lanxiao Huang, Xiangyang Ji
分类: cs.AI, cs.LG
发布日期: 2024-08-20 (更新: 2024-11-22)
💡 一句话要点
Hokoff:王者荣耀真实游戏数据集及其离线强化学习基准
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 多智能体强化学习 游戏AI 王者荣耀 数据集 基准测试 分层动作空间
📋 核心要点
- 现有离线强化学习数据集在复杂度和真实性方面存在不足,难以推动算法在真实场景中的应用。
- Hokoff数据集来源于复杂MOBA游戏王者荣耀,提供离线RL和MARL数据,并构建了评估框架。
- 通过基准测试,揭示了现有离线RL算法在处理复杂任务、泛化和多任务学习方面的局限性。
📝 摘要(中文)
离线强化学习(RL)和离线多智能体强化学习(MARL)的发展,关键在于高质量的预收集离线数据集,这些数据集能够代表真实世界的复杂性和实际应用。然而,现有的数据集通常过于简单,缺乏真实性。为了解决这个问题,我们提出了Hokoff,这是一套全面的预收集数据集,涵盖了离线RL和离线MARL,并提供了一个强大的框架,以促进进一步的研究。该数据来源于王者荣耀,这是一款以其复杂性而闻名的多人在线战术竞技(MOBA)游戏,与现实生活中的情况非常相似。利用这个框架,我们对各种离线RL和离线MARL算法进行了基准测试。我们还介绍了一种为游戏固有的分层动作空间量身定制的新的基线算法。我们揭示了当前离线RL方法在处理任务复杂性、泛化和多任务学习方面的不足。
🔬 方法详解
问题定义:现有离线强化学习方法在处理复杂、高维、分层动作空间的游戏环境时存在泛化能力不足的问题。尤其是在王者荣耀这类MOBA游戏中,英雄众多,技能组合复杂,智能体需要学习长期策略才能获得较好的表现。现有方法难以有效利用离线数据进行学习,导致策略性能不佳。
核心思路:论文的核心思路是构建一个高质量、大规模的离线数据集Hokoff,该数据集来源于真实王者荣耀游戏对局,包含丰富的游戏状态、动作和奖励信息。通过在该数据集上进行离线强化学习算法的基准测试,可以更真实地评估算法在复杂环境下的性能,并为后续算法改进提供指导。同时,论文还提出了一种针对分层动作空间的基线算法。
技术框架:Hokoff数据集构建框架主要包括数据收集、数据清洗、数据标注和数据划分等模块。数据收集来源于王者荣耀游戏对局录像,数据清洗用于去除无效或异常数据,数据标注用于标记游戏状态、英雄动作和奖励信息,数据划分将数据集划分为训练集、验证集和测试集。此外,论文还构建了一个离线强化学习算法评估框架,用于评估不同算法在Hokoff数据集上的性能。
关键创新:论文的关键创新在于构建了一个大规模、高质量的真实游戏数据集Hokoff,该数据集能够更真实地反映复杂游戏环境的特点,为离线强化学习算法的研究提供了一个可靠的基准。此外,论文还针对王者荣耀的分层动作空间,提出了一种新的基线算法,为后续算法设计提供了参考。
关键设计:Hokoff数据集包含多种英雄对局数据,覆盖不同的游戏阶段和策略。数据集中的状态信息包括英雄位置、生命值、法力值、装备等,动作信息包括英雄的移动、攻击、技能释放等,奖励信息包括击杀、助攻、推塔等。论文还设计了一种分层动作空间表示方法,将英雄的动作分解为多个层次,例如选择目标、选择技能、执行动作等。基线算法采用Actor-Critic框架,并针对分层动作空间设计了相应的网络结构和损失函数。
📊 实验亮点
论文在Hokoff数据集上对多种离线RL和MARL算法进行了基准测试,结果表明现有算法在处理复杂任务时性能不佳。例如,在某些英雄对局中,现有算法的胜率远低于人类玩家。论文提出的基线算法在一定程度上提高了性能,但仍有很大的提升空间。这些实验结果为后续算法改进提供了重要的参考。
🎯 应用场景
该研究成果可应用于游戏AI、机器人控制、自动驾驶等领域。通过利用离线数据进行学习,可以降低智能体与环境交互的成本,提高学习效率。在游戏AI领域,可以训练出更强大的游戏AI,提升游戏体验。在机器人控制领域,可以利用历史数据训练机器人完成复杂任务。在自动驾驶领域,可以利用真实驾驶数据训练自动驾驶系统,提高安全性。
📄 摘要(原文)
The advancement of Offline Reinforcement Learning (RL) and Offline Multi-Agent Reinforcement Learning (MARL) critically depends on the availability of high-quality, pre-collected offline datasets that represent real-world complexities and practical applications. However, existing datasets often fall short in their simplicity and lack of realism. To address this gap, we propose Hokoff, a comprehensive set of pre-collected datasets that covers both offline RL and offline MARL, accompanied by a robust framework, to facilitate further research. This data is derived from Honor of Kings, a recognized Multiplayer Online Battle Arena (MOBA) game known for its intricate nature, closely resembling real-life situations. Utilizing this framework, we benchmark a variety of offline RL and offline MARL algorithms. We also introduce a novel baseline algorithm tailored for the inherent hierarchical action space of the game. We reveal the incompetency of current offline RL approaches in handling task complexity, generalization and multi-task learning.