High-quality generation of dynamic game content via small language models: A proof of concept

📄 arXiv: 2601.23206v1 📥 PDF

作者: Morten I. K. Munk, Arturo Valdivia, Paolo Burelli

分类: cs.AI

发布日期: 2026-01-30


💡 一句话要点

提出一种基于小语言模型的高质量动态游戏内容生成方法,解决叙事连贯性和高运营成本问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 动态游戏内容生成 微调 合成数据生成 DAG 实时生成

📋 核心要点

  1. 大型语言模型在游戏内容生成中面临叙事连贯性差和运营成本高等挑战,限制了其在离线游戏中的应用。
  2. 该论文提出通过在特定任务上对小型语言模型进行微调,并结合合成数据生成,实现高质量的游戏内容生成。
  3. 实验证明,该方法在实时生成方面具有可行性,并能达到可接受的质量水平,适用于游戏引擎约束。

📝 摘要(中文)

大型语言模型(LLM)在动态游戏内容生成方面展现出潜力,但面临叙事不连贯和高运营成本等关键障碍。由于其庞大的规模,LLM通常需要在云端访问,限制了其在离线游戏中的应用。小型语言模型(SLM)可以解决许多实际问题,但现有研究表明,使用SLM会导致输出质量较差。我们提出了一种策略,通过在具有狭窄上下文、约束结构或两者的特定任务上进行积极的微调,来实现高质量的SLM生成。简而言之,更困难的任务需要更窄的范围和更高的训练语料库专业化程度。训练数据通过基于DAG的方法进行合成生成,使模型扎根于特定的游戏世界。这种模型可以构成围绕叙事框架设计的智能体网络的基础,代表了一种比依赖云的LLM更实用和稳健的解决方案。为了验证这种方法,我们提出了一个概念验证,重点关注单个专门的SLM作为基本构建块。我们引入了一个围绕声誉修辞战的最小RPG循环,由该模型驱动。我们证明,一个简单的重试直到成功策略可以达到足够的质量(由LLM作为评判方案定义),并具有适合实时生成的可预测延迟。虽然局部质量评估仍然是一个悬而未决的问题,但我们的结果证明了在典型游戏引擎约束下实时生成的可行性。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在动态游戏内容生成中存在叙事不连贯、运营成本高昂以及依赖云服务等问题,限制了其在离线游戏中的应用。而直接使用小型语言模型(SLM)进行生成,往往会导致输出质量较差,难以满足游戏的需求。因此,需要一种方法,既能保证生成内容的质量,又能降低模型规模和运营成本,使其适用于离线游戏环境。

核心思路:该论文的核心思路是通过对小型语言模型(SLM)进行有针对性的微调,使其在特定任务上表现出色。具体而言,通过限制任务的范围和上下文,并结合精心设计的训练数据,可以显著提高SLM的生成质量。此外,论文还提出了一种基于DAG(有向无环图)的合成数据生成方法,用于构建特定游戏世界的训练数据,从而使模型更好地适应游戏环境。

技术框架:整体框架包含以下几个主要步骤:1) 定义特定游戏世界的任务范围和上下文;2) 使用基于DAG的方法合成生成训练数据;3) 对小型语言模型(SLM)进行微调,使其在特定任务上表现出色;4) 使用“重试直到成功”的策略,确保生成内容的质量达到可接受的水平;5) 将微调后的SLM集成到游戏引擎中,实现动态游戏内容生成。

关键创新:该论文的关键创新在于:1) 提出了一种通过限制任务范围和上下文,并结合合成数据生成,提高小型语言模型(SLM)生成质量的方法;2) 提出了一种基于DAG的合成数据生成方法,用于构建特定游戏世界的训练数据;3) 提出了一种“重试直到成功”的策略,用于确保生成内容的质量达到可接受的水平。

关键设计:论文中,训练数据通过DAG生成,DAG的设计需要根据具体的游戏世界和任务进行调整,以保证数据的质量和多样性。模型微调过程中,需要选择合适的损失函数和优化器,并根据实际情况调整学习率等超参数。此外,“重试直到成功”策略中的质量评估标准,需要根据具体的游戏需求进行定义,可以使用LLM作为评判器,也可以使用其他方法进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过实验证明,使用小型语言模型(SLM)进行微调,并结合合成数据生成和“重试直到成功”的策略,可以实现高质量的动态游戏内容生成。实验结果表明,该方法在实时生成方面具有可行性,并能达到可接受的质量水平(由LLM作为评判方案定义),适用于游戏引擎约束。

🎯 应用场景

该研究成果可应用于各种类型的游戏,特别是离线游戏和移动游戏,用于动态生成游戏剧情、对话、任务等内容,提升游戏体验,降低开发成本。此外,该方法还可以应用于其他需要高质量文本生成的领域,例如故事创作、剧本编写等。

📄 摘要(原文)

Large language models (LLMs) offer promise for dynamic game content generation, but they face critical barriers, including narrative incoherence and high operational costs. Due to their large size, they are often accessed in the cloud, limiting their application in offline games. Many of these practical issues are solved by pivoting to small language models (SLMs), but existing studies using SLMs have resulted in poor output quality. We propose a strategy of achieving high-quality SLM generation through aggressive fine-tuning on deliberately scoped tasks with narrow context, constrained structure, or both. In short, more difficult tasks require narrower scope and higher specialization to the training corpus. Training data is synthetically generated via a DAG-based approach, grounding models in the specific game world. Such models can form the basis for agentic networks designed around the narratological framework at hand, representing a more practical and robust solution than cloud-dependent LLMs. To validate this approach, we present a proof-of-concept focusing on a single specialized SLM as the fundamental building block. We introduce a minimal RPG loop revolving around rhetorical battles of reputations, powered by this model. We demonstrate that a simple retry-until-success strategy reaches adequate quality (as defined by an LLM-as-a-judge scheme) with predictable latency suitable for real-time generation. While local quality assessment remains an open question, our results demonstrate feasibility for real-time generation under typical game engine constraints.