Synergizing Code Coverage and Gameplay Intent: Coverage-Aware Game Playtesting with LLM-Guided Reinforcement Learning
作者: Enhong Mu, Minami Yoda, Yan Zhang, Mingyue Zhang, Yutaka Matsuno, Jialong Li
分类: cs.AI, cs.SE
发布日期: 2025-12-14
💡 一句话要点
提出SMART框架,结合代码覆盖率与游戏意图,提升游戏自动化测试效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动化游戏测试 强化学习 代码覆盖率 大型语言模型 游戏AI
📋 核心要点
- 现有自动化游戏测试方法难以兼顾代码覆盖率和游戏意图,导致测试不充分或效率低下。
- SMART框架利用LLM理解代码变更的功能意图,并设计混合奖励机制引导强化学习智能体。
- 实验表明,SMART在保证任务完成率的同时,显著提升了修改代码的分支覆盖率。
📝 摘要(中文)
随着“游戏即服务”模式的广泛采用,频繁的内容更新给质量保证带来了巨大压力。为了应对这一需求,自动化游戏测试被视为一种有前景的解决方案。然而,现有的自动化测试方法通常存在二分法:以代码为中心的方法侧重于结构覆盖,而不理解游戏上下文;而以玩家为中心的智能体验证高层意图,但往往无法覆盖特定的底层代码更改。为了弥合这一差距,我们提出SMART(结构映射增强强化测试),这是一个新颖的框架,它协同结构验证和功能验证,用于游戏更新测试。SMART利用大型语言模型(LLM)来解释抽象语法树(AST)差异并提取功能意图,构建上下文感知的混合奖励机制。该机制引导强化学习智能体按顺序完成游戏目标,同时自适应地探索修改后的代码分支。我们在Overcooked和Minecraft两个环境中评估了SMART。结果表明,SMART显著优于最先进的基线;它实现了超过94%的修改代码分支覆盖率,几乎是传统强化学习方法的两倍,同时保持了98%的任务完成率,有效地平衡了结构全面性和功能正确性。
🔬 方法详解
问题定义:现有自动化游戏测试方法要么侧重于代码覆盖率,忽略游戏行为的合理性;要么侧重于模拟玩家行为,但难以保证对修改代码的充分测试。痛点在于无法在保证游戏功能正确性的同时,充分验证代码变更的潜在影响。
核心思路:SMART的核心思路是利用大型语言模型(LLM)理解代码变更的功能意图,并将其融入到强化学习的奖励函数中。通过这种方式,智能体不仅可以学习完成游戏任务,还可以被引导去探索和覆盖修改后的代码分支。
技术框架:SMART框架包含以下主要模块:1) 代码变更分析模块:利用LLM分析抽象语法树(AST)的差异,提取功能意图。2) 混合奖励机制:结合游戏任务奖励和代码覆盖率奖励,引导智能体行为。3) 强化学习智能体:基于混合奖励机制进行训练,学习最优的游戏策略。整体流程是,首先分析代码变更,然后构建混合奖励函数,最后训练智能体进行游戏测试。
关键创新:SMART最重要的技术创新点在于利用LLM理解代码变更的功能意图,并将其转化为可量化的奖励信号。这使得智能体能够同时关注游戏功能和代码覆盖率,从而实现更全面的自动化测试。与现有方法相比,SMART不再是单纯的代码覆盖率工具或单纯的玩家行为模拟器,而是将两者有机结合。
关键设计:混合奖励函数的设计是关键。它需要平衡游戏任务奖励和代码覆盖率奖励的权重。具体来说,可以通过调整两个奖励的系数来实现。此外,强化学习智能体的网络结构和训练算法也需要根据具体的游戏环境进行调整。论文中使用了具体的强化学习算法(具体算法未知)和网络结构(具体结构未知),并对超参数进行了优化(具体参数未知)。
🖼️ 关键图片
📊 实验亮点
SMART在Overcooked和Minecraft两个环境中进行了评估,结果表明,SMART显著优于现有基线方法。SMART实现了超过94%的修改代码分支覆盖率,几乎是传统强化学习方法的两倍。同时,SMART保持了98%的任务完成率,表明其在保证代码覆盖率的同时,没有牺牲游戏功能的正确性。
🎯 应用场景
SMART框架可应用于各种“游戏即服务”模式的游戏自动化测试,尤其是在频繁进行内容更新和代码修改的游戏中。它可以帮助开发者更有效地发现潜在的bug和性能问题,提高游戏质量,并缩短发布周期。此外,该方法也可以扩展到其他软件测试领域,例如移动应用和Web应用的自动化测试。
📄 摘要(原文)
The widespread adoption of the "Games as a Service" model necessitates frequent content updates, placing immense pressure on quality assurance. In response, automated game testing has been viewed as a promising solution to cope with this demanding release cadence. However, existing automated testing approaches typically create a dichotomy: code-centric methods focus on structural coverage without understanding gameplay context, while player-centric agents validate high-level intent but often fail to cover specific underlying code changes. To bridge this gap, we propose SMART (Structural Mapping for Augmented Reinforcement Testing), a novel framework that synergizes structural verification and functional validation for game update testing. SMART leverages large language models (LLMs) to interpret abstract syntax tree (AST) differences and extract functional intent, constructing a context-aware hybrid reward mechanism. This mechanism guides reinforcement learning agents to sequentially fulfill gameplay goals while adaptively exploring modified code branches. We evaluate SMART on two environments, Overcooked and Minecraft. The results demonstrate that SMART significantly outperforms state-of-the-art baselines; it achieves over 94% branch coverage of modified code, nearly double that of traditional reinforcement learning methods, while maintaining a 98% task completion rate, effectively balancing structural comprehensiveness with functional correctness.