Grammar and Gameplay-aligned RL for Game Description Generation with LLMs

作者: Tsunehiko Tanaka, Edgar Simo-Serra

分类: cs.CL, cs.AI

发布日期: 2025-03-20 (更新: 2025-06-27)

备注: Published at IEEE Conference on Games, 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于强化学习的LLM微调方法RLGDG，提升游戏描述生成的语法正确性和概念保真度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 游戏描述生成 强化学习 大型语言模型 监督微调 游戏AI

📋 核心要点

现有游戏描述生成方法难以准确重现游戏特征，限制了生成质量。
提出RLGDG，通过强化学习微调LLM，同时优化语法和概念保真度。
实验表明，RLGDG显著优于仅使用监督微调的基线方法，提升了生成效果。

📝 摘要（中文）

游戏描述生成（GDG）是从自然语言文本生成游戏描述语言（GDL）描述的任务。以往研究探索了利用大型语言模型（LLM）的上下文理解能力的方法，但准确重现游戏描述的游戏特征仍然是一个挑战。本文提出了一种基于强化学习的LLM微调方法RLGDG，用于GDG任务。我们的训练方法通过引入语法奖励和概念奖励，同时提高了语法正确性和对游戏概念的保真度。此外，我们采用了一种两阶段训练策略，即在监督微调（SFT）之后应用强化学习（RL）。实验结果表明，我们提出的方法明显优于仅使用SFT的基线方法。代码已开源。

🔬 方法详解

问题定义：论文旨在解决游戏描述生成（GDG）任务中，大型语言模型（LLM）难以准确重现游戏特征的问题。现有方法，如仅使用监督微调（SFT），在生成符合游戏描述语言（GDL）语法规则，以及保持游戏概念一致性方面存在不足，导致生成的游戏描述质量不高。

核心思路：论文的核心思路是利用强化学习（RL）来进一步微调经过SFT的LLM，从而在语法正确性和概念保真度之间取得更好的平衡。通过设计合适的奖励函数，引导LLM生成更符合GDL规范，并准确表达游戏规则的描述。

技术框架：RLGDG采用两阶段训练策略。第一阶段是标准的监督微调（SFT），使用标注好的自然语言文本和对应的GDL描述数据对LLM进行初步训练。第二阶段是强化学习（RL）微调，使用策略梯度算法（具体算法未知）优化LLM的生成策略。在RL阶段，LLM根据当前策略生成游戏描述，然后根据设计的奖励函数计算奖励值，并利用该奖励值更新LLM的参数。

关键创新：论文的关键创新在于同时引入了语法奖励和概念奖励。语法奖励用于鼓励LLM生成符合GDL语法规则的描述，概念奖励用于鼓励LLM准确表达游戏概念。这种双重奖励机制能够更有效地引导LLM学习生成高质量的游戏描述。与仅使用SFT的方法相比，RLGDG能够更好地平衡语法正确性和概念保真度。

关键设计：关于具体的技术细节，摘要中没有给出足够的信息。语法奖励的具体计算方式未知，可能涉及到GDL的语法解析器。概念奖励的计算方式也未知，可能需要定义一些游戏概念的度量标准。强化学习算法的具体选择（例如，PPO、REINFORCE等）以及超参数设置也未知。损失函数的设计应该包含语法奖励和概念奖励两部分，具体形式未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的RLGDG方法显著优于仅使用监督微调（SFT）的基线方法。具体的性能数据和提升幅度在摘要中没有给出，需要查阅论文全文才能得知。但结论是RLGDG在游戏描述生成任务上取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于游戏AI开发、游戏设计辅助、游戏规则自动生成等领域。通过自动生成游戏描述，可以降低游戏开发成本，提高游戏设计的效率，并为游戏AI提供更准确的规则信息。未来，该技术有望应用于更复杂的游戏场景，甚至可以用于生成全新的游戏规则。

📄 摘要（原文）

Game Description Generation (GDG) is the task of generating a game description written in a Game Description Language (GDL) from natural language text. Previous studies have explored generation methods leveraging the contextual understanding capabilities of Large Language Models (LLMs); however, accurately reproducing the game features of the game descriptions remains a challenge. In this paper, we propose reinforcement learning-based fine-tuning of LLMs for GDG (RLGDG). Our training method simultaneously improves grammatical correctness and fidelity to game concepts by introducing both grammar rewards and concept rewards. Furthermore, we adopt a two-stage training strategy where Reinforcement Learning (RL) is applied following Supervised Fine-Tuning (SFT). Experimental results demonstrate that our proposed method significantly outperforms baseline methods using SFT alone. Our code is available at https://github.com/tsunehiko/rlgdg

Grammar and Gameplay-aligned RL for Game Description Generation with LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理