ByteSized32Refactored: Towards an Extensible Interactive Text Games Corpus for LLM World Modeling and Evaluation

📄 arXiv: 2509.23979v1 📥 PDF

作者: Haonan Wang, Junfeng Sun, Xingdi Yuan, Ruoyao Wang, Ziang Xiao

分类: cs.CL

发布日期: 2025-09-28

备注: 14 pages,15 figures, Accepted to the 5th Wordplay: When Language Meets Games Workshop, EMNLP 2025


💡 一句话要点

ByteSized32Refactored:面向LLM世界建模与评估的可扩展交互式文本游戏语料库

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本游戏生成 大型语言模型 世界建模 语料库重构 模块化设计

📋 核心要点

  1. 大型语言模型在模拟交互式世界模型方面面临挑战,现有文本游戏语料库的可扩展性不足。
  2. 通过重构ByteSized32语料库,并构建GameBasic.py基础库,集中通用逻辑,实现模块化和可扩展性。
  3. GPT-4o的实验结果表明,重构后的语料库在部分评估维度上提升了文本游戏生成质量,但也带来了新的挑战。

📝 摘要(中文)

本文介绍了ByteSized32Refactored,它是对原始ByteSized32语料库的重构、模块化和可扩展的实现,旨在探索文本游戏生成任务。我们进一步优化了每个文本游戏的代码结构,并创建了GameBasic.py基础库,通过将7个基类(GameObject等)抽象为可重用模块,集中了所有32个游戏的通用逻辑,从而将Python代码总行数从原始Bytesized32的2万行减少到1万行。我们的重构实现实现了可扩展性——通过我们的集中式设计,ByteSized32Refactored可以通过重用共享逻辑和功能,更有效地扩展到包含新场景和规范的文本游戏。使用GPT-4o进行的大量实验表明,性能喜忧参半——使用Bytesized32Refactored,为未见场景生成的文本游戏在四个评估维度中的两个维度上显示出质量改进,而在另外两个维度上则有所下降,这表明重构代码的层次结构为LLM带来了新的挑战。总的来说,我们强调,我们以基础库和模块化优化为中心的可扩展代码结构,不仅有助于LLM适应环境规范,而且建立了一个可扩展的环境,支持未来的扩展。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在交互式世界建模中面临的挑战,特别是现有文本游戏语料库的可扩展性问题。原始的ByteSized32语料库代码冗余,难以扩展到新的游戏场景和规范,限制了LLM在该领域的应用。

核心思路:论文的核心思路是通过模块化和抽象化来重构ByteSized32语料库。具体而言,通过提取所有游戏中通用的逻辑,并将其集中到一个基础库(GameBasic.py)中,从而减少代码冗余,提高代码的可重用性和可维护性。这种设计使得添加新的游戏场景变得更加容易,因为新的游戏可以继承和扩展基础库中的类和函数。

技术框架:该方法的核心是构建一个名为GameBasic.py的基础库,该库包含7个基类(例如GameObject)。所有32个文本游戏都基于这些基类构建。通过这种方式,通用的游戏逻辑被集中管理,而特定于游戏的逻辑则被模块化地实现。整体流程包括:1)分析原始ByteSized32语料库;2)识别通用游戏逻辑;3)设计和实现GameBasic.py基础库;4)重构所有32个游戏,使其基于GameBasic.py;5)评估重构后的语料库在LLM上的性能。

关键创新:该论文的关键创新在于其对现有文本游戏语料库的重构方式。与传统的独立实现每个游戏不同,该论文采用了一种集中式和模块化的方法,将通用逻辑提取到一个基础库中。这种方法不仅减少了代码冗余,而且提高了代码的可扩展性和可维护性,使得添加新的游戏场景变得更加容易。

关键设计:GameBasic.py基础库的设计是关键。它包含7个基类,这些基类定义了游戏中常见的对象和行为。例如,GameObject基类定义了游戏中所有对象的通用属性和方法,如位置、描述和交互。其他基类则定义了更具体的对象和行为,如玩家、物品和命令。通过继承和扩展这些基类,可以轻松地创建新的游戏对象和行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用ByteSized32Refactored生成的文本游戏,在未见过的场景下,GPT-4o在四个评估维度中的两个维度上表现出质量提升。代码行数从2万行减少到1万行,显著降低了代码冗余度,提升了可维护性。但重构后的层次结构也给LLM带来了新的挑战,在另外两个维度上性能有所下降。

🎯 应用场景

该研究成果可应用于训练和评估大型语言模型在交互式环境中的推理和决策能力。重构后的语料库可以作为一个标准化的测试平台,用于比较不同LLM的性能,并促进该领域的研究进展。此外,该方法还可以推广到其他类型的交互式环境,如虚拟现实和机器人控制。

📄 摘要(原文)

Simulating interactive world models remains a core challenge in Large Language Models(LLMs). In this work, we introduce the ByteSized32Refactored, a refactored, modular, and extensible implementation of the original ByteSized32 corpus to explore the task of text game generation. We further optimize the code structure of each text game and create the GameBasic.py foundation library, which centralizes common logic across all 32 games by abstracting 7 base classes (GameObject, etc.) into reusable modules, thereby reducing from 20k to 10k total lines of Python code compared to the original Bytesized32. Our refactored implementation enables extendability - with our centralized design, ByteSized32Refactored can be more efficiently extended to include text games of new scenarios and specifications by reusing the shared logic and functionalities. Extensive experiments with GPT-4o demonstrate a mix of performance - with Bytesized32Refactored, the generated text games for unseen scenarios showcase quality improvements on two of the four evaluation dimensions while decreases on the other two, indicating that the hierarchical structure of the refactored code presents new challenges for LLMs. Overall, we highlight that our extensible code structure, centered on the foundation library and the modular optimization, not only facilitates LLM adaptation to environment specifications but also establishes a scalable environment that supports future extensions.