Grammar and Gameplay-aligned RL for Game Description Generation with LLMs

📄 arXiv: 2503.15783v2 📥 PDF

作者: Tsunehiko Tanaka, Edgar Simo-Serra

分类: cs.CL, cs.AI

发布日期: 2025-03-20 (更新: 2025-06-27)

备注: Published at IEEE Conference on Games, 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于强化学习的LLM微调方法RLGDG,提升游戏描述生成的语法正确性和概念保真度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 游戏描述生成 强化学习 大型语言模型 监督微调 游戏AI

📋 核心要点

  1. 现有游戏描述生成方法难以准确重现游戏特征,限制了生成质量。
  2. 提出RLGDG,通过强化学习微调LLM,同时优化语法和概念保真度。
  3. 实验表明,RLGDG显著优于仅使用监督微调的基线方法,提升了生成效果。

📝 摘要(中文)

游戏描述生成(GDG)是从自然语言文本生成游戏描述语言(GDL)描述的任务。以往研究探索了利用大型语言模型(LLM)的上下文理解能力的方法,但准确重现游戏描述的游戏特征仍然是一个挑战。本文提出了一种基于强化学习的LLM微调方法RLGDG,用于GDG任务。我们的训练方法通过引入语法奖励和概念奖励,同时提高了语法正确性和对游戏概念的保真度。此外,我们采用了一种两阶段训练策略,即在监督微调(SFT)之后应用强化学习(RL)。实验结果表明,我们提出的方法明显优于仅使用SFT的基线方法。代码已开源。

🔬 方法详解

问题定义:论文旨在解决游戏描述生成(GDG)任务中,大型语言模型(LLM)难以准确重现游戏特征的问题。现有方法,如仅使用监督微调(SFT),在生成符合游戏描述语言(GDL)语法规则,以及保持游戏概念一致性方面存在不足,导致生成的游戏描述质量不高。

核心思路:论文的核心思路是利用强化学习(RL)来进一步微调经过SFT的LLM,从而在语法正确性和概念保真度之间取得更好的平衡。通过设计合适的奖励函数,引导LLM生成更符合GDL规范,并准确表达游戏规则的描述。

技术框架:RLGDG采用两阶段训练策略。第一阶段是标准的监督微调(SFT),使用标注好的自然语言文本和对应的GDL描述数据对LLM进行初步训练。第二阶段是强化学习(RL)微调,使用策略梯度算法(具体算法未知)优化LLM的生成策略。在RL阶段,LLM根据当前策略生成游戏描述,然后根据设计的奖励函数计算奖励值,并利用该奖励值更新LLM的参数。

关键创新:论文的关键创新在于同时引入了语法奖励和概念奖励。语法奖励用于鼓励LLM生成符合GDL语法规则的描述,概念奖励用于鼓励LLM准确表达游戏概念。这种双重奖励机制能够更有效地引导LLM学习生成高质量的游戏描述。与仅使用SFT的方法相比,RLGDG能够更好地平衡语法正确性和概念保真度。

关键设计:关于具体的技术细节,摘要中没有给出足够的信息。语法奖励的具体计算方式未知,可能涉及到GDL的语法解析器。概念奖励的计算方式也未知,可能需要定义一些游戏概念的度量标准。强化学习算法的具体选择(例如,PPO、REINFORCE等)以及超参数设置也未知。损失函数的设计应该包含语法奖励和概念奖励两部分,具体形式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的RLGDG方法显著优于仅使用监督微调(SFT)的基线方法。具体的性能数据和提升幅度在摘要中没有给出,需要查阅论文全文才能得知。但结论是RLGDG在游戏描述生成任务上取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于游戏AI开发、游戏设计辅助、游戏规则自动生成等领域。通过自动生成游戏描述,可以降低游戏开发成本,提高游戏设计的效率,并为游戏AI提供更准确的规则信息。未来,该技术有望应用于更复杂的游戏场景,甚至可以用于生成全新的游戏规则。

📄 摘要(原文)

Game Description Generation (GDG) is the task of generating a game description written in a Game Description Language (GDL) from natural language text. Previous studies have explored generation methods leveraging the contextual understanding capabilities of Large Language Models (LLMs); however, accurately reproducing the game features of the game descriptions remains a challenge. In this paper, we propose reinforcement learning-based fine-tuning of LLMs for GDG (RLGDG). Our training method simultaneously improves grammatical correctness and fidelity to game concepts by introducing both grammar rewards and concept rewards. Furthermore, we adopt a two-stage training strategy where Reinforcement Learning (RL) is applied following Supervised Fine-Tuning (SFT). Experimental results demonstrate that our proposed method significantly outperforms baseline methods using SFT alone. Our code is available at https://github.com/tsunehiko/rlgdg