MIMIC-Py: An Extensible Tool for Personality-Driven Automated Game Testing with Large Language Models

作者: Yifei Chen, Sarra Habchi, Lili Wei

分类: cs.SE, cs.AI

发布日期: 2026-04-09

备注: 10 pages, Accepted by FSE Companion '26, July 5--9, 2026, Montreal, QC, Canada

DOI: 10.1145/3803437.3806414

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

MIMIC-Py：基于LLM的性格驱动型自动化游戏测试可扩展工具

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动化游戏测试 大型语言模型 性格驱动 可扩展框架 模块化架构

📋 核心要点

现有游戏测试工具难以规模化自动化测试复杂、非确定性的现代视频游戏，且缺乏跨游戏的可重用性。
MIMIC-Py通过将性格特征作为可配置输入，并采用模块化架构，实现了性格驱动的LLM智能体的可重用和可扩展。
MIMIC-Py支持多种交互机制，能够以最小的工程量部署到新的游戏环境中，促进了研究原型向实际应用的转化。

📝 摘要（中文）

现代视频游戏是复杂的、非确定性的系统，难以进行大规模的自动化测试。虽然先前的工作表明，性格驱动的大型语言模型（LLM）智能体可以提高行为多样性和测试覆盖率，但现有的工具在很大程度上仍然是研究原型，缺乏跨游戏的可重用性。本文介绍MIMIC-Py，一个基于Python的自动化游戏测试工具，它将性格驱动的LLM智能体转换为可重用和可扩展的框架。MIMIC-Py将性格特征作为可配置的输入公开，并采用模块化架构，将规划、执行和记忆与游戏特定的逻辑分离。它支持多种交互机制，使智能体能够通过公开的API或合成的代码与游戏进行交互。我们描述了MIMIC-Py的设计，并展示了它如何以最小的工程工作量实现向新游戏环境的部署，从而弥合了研究原型和实际自动化游戏测试之间的差距。

🔬 方法详解

问题定义：现有自动化游戏测试工具难以应对现代视频游戏的复杂性和非确定性，导致测试覆盖率不足。此外，现有工具大多是研究原型，缺乏跨游戏的可重用性，难以应用于实际的工业场景。这些工具无法有效地模拟不同性格的游戏玩家，从而限制了测试的多样性和有效性。

核心思路：MIMIC-Py的核心思路是将大型语言模型（LLM）与性格特征相结合，构建性格驱动的智能体，用于自动化游戏测试。通过将性格特征作为可配置的输入，并采用模块化架构，MIMIC-Py实现了智能体的可重用性和可扩展性。这种设计允许智能体模拟不同性格的玩家，从而提高测试的多样性和覆盖率。

技术框架：MIMIC-Py采用模块化架构，主要包含以下模块：1) 规划模块：利用LLM根据游戏目标和性格特征生成行动计划；2) 执行模块：将行动计划转化为游戏可执行的指令，通过API或合成代码与游戏交互；3) 记忆模块：存储游戏状态和历史行动，为后续决策提供上下文信息；4) 游戏特定逻辑模块：封装游戏相关的API和数据结构，实现与不同游戏的适配。

关键创新：MIMIC-Py的关键创新在于将性格驱动的LLM智能体转化为一个可重用和可扩展的自动化游戏测试框架。通过模块化架构和可配置的性格特征，MIMIC-Py能够以最小的工程量部署到新的游戏环境中，并模拟不同性格的玩家行为。这与传统的自动化测试方法相比，显著提高了测试的多样性和覆盖率。

关键设计：MIMIC-Py的关键设计包括：1) 性格特征表示：使用预定义的性格特征（如五大人格特质）作为LLM的输入，引导智能体的行为；2) 交互机制：支持通过游戏API和合成代码两种方式与游戏交互，提高了灵活性和适用性；3) 模块化架构：将规划、执行和记忆等功能模块化，方便扩展和定制；4) 游戏适配层：通过封装游戏相关的API和数据结构，降低了向新游戏环境部署的难度。

🖼️ 关键图片

📊 实验亮点

论文展示了MIMIC-Py在不同游戏环境中的部署，验证了其可重用性和可扩展性。通过配置不同的性格特征，MIMIC-Py能够生成多样化的游戏行为，提高了测试覆盖率。虽然论文没有提供具体的性能数据，但强调了其在降低部署成本和提高测试效率方面的潜力。

🎯 应用场景

MIMIC-Py可应用于各种类型的游戏自动化测试，包括单人游戏、多人在线游戏等。它可以帮助游戏开发者更有效地发现和修复bug，提高游戏质量，降低测试成本。此外，MIMIC-Py还可以用于游戏AI研究，例如，探索不同性格的AI在游戏中的行为模式和策略。

📄 摘要（原文）

Modern video games are complex, non-deterministic systems that are difficult to test automatically at scale. Although prior work shows that personality-driven Large Language Model (LLM) agents can improve behavioural diversity and test coverage, existing tools largely remain research prototypes and lack cross-game reusability. This tool paper presents MIMIC-Py, a Python-based automated game-testing tool that transforms personality-driven LLM agents into a reusable and extensible framework. MIMIC-Py exposes personality traits as configurable inputs and adopts a modular architecture that decouples planning, execution, and memory from game-specific logic. It supports multiple interaction mechanisms, enabling agents to interact with games via exposed APIs or synthesized code. We describe the design of MIMIC-Py and show how it enables deployment to new game environments with minimal engineering effort, bridging the gap between research prototypes and practical automated game testing. The source code and a demo video are available on our project webpage: https://mimic-persona.github.io/MIMIC-Py-Home-Page/.

MIMIC-Py: An Extensible Tool for Personality-Driven Automated Game Testing with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理