Automatic Bug Detection in LLM-Powered Text-Based Games Using LLMs

📄 arXiv: 2406.04482v1 📥 PDF

作者: Claire Jin, Sudha Rao, Xiangyu Peng, Portia Botchway, Jessica Quaye, Chris Brockett, Bill Dolan

分类: cs.CL, cs.AI, cs.HC, cs.SE

发布日期: 2024-06-06

备注: Accepted for publication in Findings of the Association for Computational Linguistics: ACL 2024

DOI: 10.18653/v1/2024.findings-acl.907


💡 一句话要点

提出基于LLM的自动方法,用于检测LLM驱动的文本游戏中存在的缺陷。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 文本游戏 缺陷检测 自动化测试 游戏AI

📋 核心要点

  1. LLM驱动的文本游戏存在幻觉、健忘等缺陷,导致游戏逻辑不一致,现有方法缺乏自动检测此类缺陷的能力。
  2. 提出一种基于LLM的系统方法,通过分析玩家游戏日志自动识别缺陷,无需额外数据收集。
  3. 该方法应用于DejaBoom!文本游戏,有效识别了LLM驱动游戏中的缺陷,优于非结构化方法。

📝 摘要(中文)

大型语言模型(LLM)的进步正在彻底改变交互式游戏设计,实现了动态情节和玩家与非玩家角色(NPC)之间的互动。然而,LLM可能表现出幻觉、健忘或对提示的误解等缺陷,导致逻辑不一致和与预期设计的意外偏差。目前仍然缺乏用于检测此类游戏缺陷的自动化技术。为了解决这个问题,我们提出了一种基于LLM的系统方法,用于从玩家游戏日志中自动识别此类缺陷,无需收集额外的游戏后调查数据。应用于文本游戏DejaBoom!,我们的方法有效地识别了LLM驱动的交互式游戏中固有的缺陷,超越了非结构化的LLM驱动的缺陷捕捉方法,并填补了自动检测逻辑和设计缺陷方面的空白。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的文本游戏中存在的逻辑和设计缺陷的自动检测问题。现有方法,例如人工测试或游戏后调查,成本高昂且效率低下。此外,直接使用LLM进行缺陷检测往往缺乏结构性,效果不佳。因此,需要一种能够自动、高效地从游戏日志中识别缺陷的方法。

核心思路:论文的核心思路是利用LLM本身来分析游戏日志,并判断是否存在与预期设计不符的逻辑错误或不一致性。通过构建合适的提示和利用LLM的推理能力,可以模拟玩家的行为并预测游戏的预期发展,从而发现潜在的缺陷。这种方法避免了人工干预,并能够大规模地分析游戏数据。

技术框架:该方法主要包含以下几个阶段:1) 游戏日志收集:收集玩家在游戏过程中的交互日志,包括玩家的输入和游戏的输出。2) 日志解析与结构化:将非结构化的游戏日志转换为结构化的数据,例如将玩家的指令和游戏的回应分别提取出来。3) LLM驱动的缺陷检测:使用LLM对结构化的游戏日志进行分析,判断是否存在逻辑错误或不一致性。这通常涉及到构建合适的提示,例如要求LLM预测下一步的合理发展,并与实际发生的情况进行比较。4) 缺陷报告生成:将检测到的缺陷整理成报告,包括缺陷的描述、发生的位置和可能的修复建议。

关键创新:该方法最重要的创新点在于其自动化和系统性。它提出了一种结构化的方法,利用LLM的推理能力自动检测LLM驱动游戏中的缺陷,无需人工干预或额外的数据收集。与非结构化的LLM驱动的缺陷捕捉方法相比,该方法更加高效和可靠。

关键设计:论文的关键设计包括:1) 提示工程:设计合适的提示,引导LLM进行缺陷检测。例如,可以要求LLM扮演玩家的角色,并预测下一步的合理发展。2) 缺陷判断标准:定义明确的缺陷判断标准,例如逻辑不一致、违反游戏规则等。3) LLM的选择:选择合适的LLM,并根据具体任务进行微调。4) 日志结构化方法:设计有效的日志结构化方法,以便LLM能够更好地理解游戏日志。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在DejaBoom!文本游戏中进行了实验,结果表明其能够有效识别LLM驱动游戏中的缺陷,并且优于非结构化的LLM驱动的缺陷捕捉方法。具体的性能数据和提升幅度在论文中进行了详细的展示,证明了该方法的有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于LLM驱动的文本游戏开发与测试中,帮助开发者快速发现并修复游戏中的缺陷,提升游戏质量和用户体验。此外,该方法也可扩展到其他交互式应用,例如对话系统和虚拟助手,用于检测和修复LLM引入的错误。

📄 摘要(原文)

Advancements in large language models (LLMs) are revolutionizing interactive game design, enabling dynamic plotlines and interactions between players and non-player characters (NPCs). However, LLMs may exhibit flaws such as hallucinations, forgetfulness, or misinterpretations of prompts, causing logical inconsistencies and unexpected deviations from intended designs. Automated techniques for detecting such game bugs are still lacking. To address this, we propose a systematic LLM-based method for automatically identifying such bugs from player game logs, eliminating the need for collecting additional data such as post-play surveys. Applied to a text-based game DejaBoom!, our approach effectively identifies bugs inherent in LLM-powered interactive games, surpassing unstructured LLM-powered bug-catching methods and filling the gap in automated detection of logical and design flaws.