GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers
作者: Shufan Jiang, Chios Chen, Zhiyang Chen
分类: cs.SE, cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出GBQA:一个评估LLM作为质量保证工程师能力的游戏基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 软件测试 质量保证 游戏开发 缺陷检测
📋 核心要点
- 自主发现软件缺陷是软件开发中的一个重要挑战,现有方法难以应对动态运行时环境的复杂性。
- 论文提出GBQA基准,通过多智能体系统生成游戏并注入bug,结合人工专家验证,评估LLM的bug检测能力。
- 实验结果表明,即使是性能最佳的LLM也只能检测到不到一半的bug,说明自主bug发现仍然面临巨大挑战。
📝 摘要(中文)
本文提出了游戏基准质量保证(GBQA),旨在评估大型语言模型(LLM)自主检测软件缺陷的能力。与代码生成相比,动态运行时环境的复杂性使得LLM发现bug的难度大大增加。GBQA包含30个游戏和124个经过人工验证的bug,分为三个难度等级。该基准使用多智能体系统开发游戏并注入bug,并由人工专家进行验证以确保正确性。此外,论文提供了一个配备多轮ReAct循环和记忆机制的交互式代理,用于在不同的LLM中进行长期游戏环境探索以检测bug。对前沿LLM的广泛实验表明,自主bug发现仍然具有很高的挑战性:性能最佳的模型Claude-4.6-Opus在思考模式下仅识别出48.39%的已验证bug。GBQA提供了一个充分的测试平台和评估标准,进一步的研究将有助于缩小自主软件工程方面的差距。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在复杂动态环境中自主发现软件缺陷的难题。现有方法在代码生成方面取得了一定进展,但在动态运行时环境中,由于环境的复杂性和不确定性,LLM难以有效地进行bug检测。现有的软件测试方法往往依赖于预定义的测试用例,难以覆盖所有可能的bug场景。
核心思路:论文的核心思路是利用游戏开发作为软件开发的一个代表性领域,构建一个可扩展的、包含已知bug的基准测试集,并设计一个交互式代理,使LLM能够通过与游戏环境的交互来发现bug。通过这种方式,可以更真实地模拟软件测试过程,并评估LLM在实际应用中的bug检测能力。
技术框架:GBQA基准的构建包括以下几个主要阶段:1) 使用多智能体系统自动生成游戏;2) 在游戏中注入各种类型的bug;3) 由人工专家对bug进行验证和标注;4) 构建一个交互式代理,该代理使用多轮ReAct循环和记忆机制,能够与游戏环境进行交互,并尝试发现bug。整个框架旨在提供一个可控、可重复且具有挑战性的测试环境。
关键创新:论文的关键创新在于构建了一个大规模、多样化的游戏bug基准测试集GBQA,并设计了一个能够与游戏环境进行交互的智能代理。与传统的静态代码分析方法不同,GBQA侧重于评估LLM在动态运行时环境中发现bug的能力。此外,多智能体系统和人工专家验证的结合,保证了基准测试集的质量和可靠性。
关键设计:交互式代理采用ReAct循环,允许LLM在观察游戏环境后,进行推理并采取行动。记忆机制用于存储LLM与环境交互的历史信息,以便更好地理解游戏状态和预测潜在的bug。实验中,论文使用了不同的LLM(如Claude-4.6-Opus)作为代理的核心,并比较了它们在GBQA上的性能。具体参数设置和损失函数等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是目前性能最佳的LLM(Claude-4.6-Opus),在思考模式下也只能识别出48.39%的已验证bug。这表明自主bug发现仍然是一个具有挑战性的问题,GBQA基准可以作为评估和改进LLM在软件测试方面能力的重要工具。
🎯 应用场景
该研究成果可应用于自动化软件测试、质量保证和软件开发工具的改进。通过GBQA基准,可以更有效地评估和提升LLM在bug检测方面的能力,从而降低软件开发成本,提高软件质量。未来,该研究可以扩展到更复杂的软件系统和更广泛的bug类型。
📄 摘要(原文)
The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.