Enhancing Player Enjoyment with a Two-Tier DRL and LLM-Based Agent System for Fighting Games

📄 arXiv: 2504.07425v1 📥 PDF

作者: Shouren Wang, Zehua Jiang, Fernando Sliva, Sam Earle, Julian Togelius

分类: cs.AI, cs.LG

发布日期: 2025-04-10

备注: 15 pages, 8 figures. Submitted to a peer-reviewed conference, under review


💡 一句话要点

提出基于双层DRL和LLM的格斗游戏Agent系统,提升玩家游戏乐趣

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 格斗游戏AI 深度强化学习 大型语言模型 游戏乐趣 双层Agent 个性化游戏体验 街头霸王II

📋 核心要点

  1. 现有格斗游戏Agent研究较少关注玩家乐趣,缺乏以乐趣为中心的Agent设计。
  2. 提出双层Agent系统(TTA),利用DRL生成多样化Agent,LLM根据玩家反馈动态选择对手。
  3. 实验表明,该系统显著提升了Agent的技能执行能力和玩家的游戏乐趣。

📝 摘要(中文)

深度强化学习(DRL)已有效提升各种游戏类型的游戏体验和游戏设计。然而,很少有关于格斗游戏Agent的研究明确关注提升玩家乐趣,这对于开发者和玩家来说都是至关重要的因素。为了解决这一差距,并为设计以乐趣为中心的Agent建立一个实用的基线,我们提出了一个双层Agent(TTA)系统,并在经典格斗游戏《街头霸王II》中进行了实验。TTA的第一层采用面向任务的网络架构、模块化奖励函数和混合训练,以产生多样化和熟练的DRL Agent。在TTA的第二层中,一个大型语言模型Hyper-Agent,利用玩家的游戏数据和反馈,动态选择合适的DRL对手。此外,我们研究并建模了影响对手乐趣的几个关键因素。实验表明,高级技能的执行能力比基线方法提高了64.36%到156.36%。训练后的Agent也表现出不同的游戏风格。此外,我们进行了一个小规模的用户研究,玩家反馈的整体乐趣验证了我们的TTA系统的有效性。

🔬 方法详解

问题定义:现有格斗游戏AI Agent的设计目标通常是击败玩家,而忽略了玩家的游戏体验和乐趣。这导致玩家可能感到沮丧或失去兴趣,从而影响游戏的长期吸引力。因此,需要设计一种能够根据玩家的水平和偏好动态调整行为的Agent,以最大化玩家的乐趣。

核心思路:论文的核心思路是将Agent的设计分为两个层次。第一层使用DRL训练多个具有不同技能和风格的Agent。第二层使用LLM作为Hyper-Agent,根据玩家的游戏数据和反馈,动态选择最适合当前玩家的DRL Agent作为对手。这种分层设计允许Agent在保持竞争力的同时,也能提供更个性化和愉悦的游戏体验。

技术框架:TTA系统包含两个主要层级:DRL Agent层和LLM Hyper-Agent层。DRL Agent层使用面向任务的网络架构、模块化奖励函数和混合训练方法,生成多个具有不同技能和游戏风格的Agent。LLM Hyper-Agent层接收玩家的游戏数据和反馈,并使用这些信息来预测哪个DRL Agent最能提供令人愉悦的体验。然后,LLM选择相应的DRL Agent与玩家对战。

关键创新:该论文的关键创新在于将LLM引入到格斗游戏Agent的设计中,并将其用作Hyper-Agent来动态选择DRL对手。这种方法允许Agent根据玩家的实时反馈进行调整,从而提供更个性化和令人愉悦的游戏体验。与传统的DRL Agent相比,TTA系统能够更好地平衡Agent的竞争力和玩家的乐趣。

关键设计:DRL Agent层使用A2C算法进行训练,奖励函数被模块化为多个部分,分别对应不同的技能和行为。LLM Hyper-Agent使用GPT-3,并使用玩家的游戏数据和反馈进行微调。关键参数包括DRL Agent的训练步数、奖励函数的权重以及LLM的微调参数。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,TTA系统能够显著提升Agent的技能执行能力,高级技能的执行能力比基线方法提高了64.36%到156.36%。此外,用户研究表明,玩家对使用TTA系统的游戏体验的整体乐趣评价较高,验证了该系统的有效性。训练后的Agent也表现出不同的游戏风格,增加了游戏的多样性。

🎯 应用场景

该研究成果可应用于各种格斗游戏和对抗性游戏中,以提升玩家的游戏体验。通过动态调整AI对手的行为,可以使游戏更具挑战性和趣味性,从而提高玩家的参与度和满意度。此外,该方法还可以应用于游戏测试和平衡性调整,帮助开发者更好地了解玩家的需求和偏好。

📄 摘要(原文)

Deep reinforcement learning (DRL) has effectively enhanced gameplay experiences and game design across various game genres. However, few studies on fighting game agents have focused explicitly on enhancing player enjoyment, a critical factor for both developers and players. To address this gap and establish a practical baseline for designing enjoyability-focused agents, we propose a two-tier agent (TTA) system and conducted experiments in the classic fighting game Street Fighter II. The first tier of TTA employs a task-oriented network architecture, modularized reward functions, and hybrid training to produce diverse and skilled DRL agents. In the second tier of TTA, a Large Language Model Hyper-Agent, leveraging players' playing data and feedback, dynamically selects suitable DRL opponents. In addition, we investigate and model several key factors that affect the enjoyability of the opponent. The experiments demonstrate improvements from 64. 36% to 156. 36% in the execution of advanced skills over baseline methods. The trained agents also exhibit distinct game-playing styles. Additionally, we conducted a small-scale user study, and the overall enjoyment in the player's feedback validates the effectiveness of our TTA system.