SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?

📄 arXiv: 2605.22175v1 📥 PDF

作者: Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang

分类: cs.SE, cs.AI

发布日期: 2026-05-21

备注: 24 pages, 8 figures

期刊: ACL 2026 Findings


💡 一句话要点

SWE-Mutation:评估LLM生成测试套件可靠性的基准与Agentic变异框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 软件工程 测试套件生成 程序变异 自动化测试

📋 核心要点

  1. 现有LLM在软件工程能力评估中,缺乏高质量、具有区分性的测试套件,阻碍了模型进一步扩展和应用。
  2. 提出SWE-Mutation基准,通过引入系统性变异解决方案,评估LLM生成测试套件的可靠性和区分能力。
  3. 实验表明,即使是先进的LLM在SWE-Mutation基准上表现不佳,Agentic变异策略进一步降低了检测率,揭示了LLM的不足。

📝 摘要(中文)

评估软件工程能力已成为现代大型语言模型(LLM)的核心组成部分。然而,进一步扩展的关键瓶颈不在于高质量解决方案的稀缺,而在于缺乏高质量的测试套件。测试套件对于合成程序修复轨迹和在强化学习中提供精确的反馈信号都是不可或缺的。由于高昂的成本和标注难度,高质量的测试套件长期以来难以获得,而LLM自动生成的测试套件往往是肤浅的,缺乏足够的区分能力。作为构建高质量测试套件的第一步,我们引入了SWE-Mutation,这是一个用于评估LLM生成测试套件的基准。该基准通过引入系统性的变异解决方案来表征测试套件,这些变异解决方案试图“愚弄”测试套件并通过验证。我们进一步提出了一个agentic、语言无关的框架,用于自动生成复杂的变异体。我们的基准包含2636个变异变体,这些变体源自800个原始实例,并包括一个跨越九种编程语言的多语言子集。对七个LLM的实验表明,即使是DeepSeek-V3.1也仅实现了10.20%的验证率和36.15%的检测率,突显了当前LLM的不足。此外,与传统方法相比,我们的agentic变异策略增强了真实性,将平均检测率从71.04%降低到39.81%。这些发现揭示了当前LLM在生成可靠且具有区分性的测试套件方面的持续缺陷。

🔬 方法详解

问题定义:当前大型语言模型(LLM)在软件工程领域的应用日益广泛,但缺乏高质量的测试套件来评估和提升其性能。现有的测试套件要么成本高昂难以获取,要么由LLM自动生成但区分能力不足,无法有效检测程序中的错误和漏洞。这限制了LLM在程序修复和强化学习等领域的应用。

核心思路:论文的核心思路是构建一个更具挑战性和真实性的测试基准,通过引入系统性的程序变异(mutation)来评估LLM生成测试套件的质量。通过设计能够“愚弄”现有测试套件的变异体,可以更准确地衡量LLM生成测试套件的可靠性和区分能力。

技术框架:论文提出了一个agentic、语言无关的框架,用于自动生成复杂的程序变异体。该框架包含以下主要模块: 1. 原始程序实例:从现有的软件工程数据集中获取原始的程序实例。 2. Agentic变异模块:使用agentic策略自动生成多种变异体,这些变异体旨在绕过现有的测试套件。 3. 测试套件评估模块:使用LLM生成的测试套件对原始程序和变异体进行测试,评估测试套件的验证率和检测率。 4. 性能分析模块:分析LLM在不同编程语言和不同类型变异体上的表现,找出其弱点。

关键创新:论文的关键创新在于提出了agentic变异策略,该策略能够生成更具挑战性和真实性的变异体。与传统的随机变异方法相比,agentic变异策略能够更好地模拟真实世界中程序员可能犯的错误,从而更准确地评估LLM生成测试套件的质量。此外,SWE-Mutation基准的多语言特性也使其更具通用性。

关键设计:Agentic变异模块的设计是关键。具体来说,该模块使用一个LLM作为agent,通过迭代的方式生成变异体。Agent的目标是生成能够通过原始测试套件,但实际上包含错误的程序。Agent会分析原始程序和测试套件,然后尝试修改程序,并使用测试套件进行验证。如果变异体通过了测试,则将其添加到变异体集合中。这个过程会重复多次,直到生成足够多的变异体。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是目前最先进的LLM(如DeepSeek-V3.1)在SWE-Mutation基准上的验证率仅为10.20%,检测率仅为36.15%。与传统变异方法相比,Agentic变异策略将平均检测率从71.04%降低到39.81%,表明其生成的变异体更具挑战性,更能反映真实场景。这些结果突显了当前LLM在生成高质量测试套件方面的不足。

🎯 应用场景

该研究成果可应用于软件工程领域的多个方面,例如自动化测试生成、程序修复和代码质量评估。通过使用SWE-Mutation基准,可以更准确地评估和提升LLM在软件工程任务中的性能。此外,该研究还可以促进对LLM在软件安全方面的潜在风险的认识,并推动开发更安全可靠的软件系统。未来,该基准可以扩展到更多编程语言和更复杂的软件系统。

📄 摘要(原文)

Evaluating software engineering capabilities has become a core component of modern large language models (LLMs); however, the key bottleneck hindering further scaling lies not in the scarcity of high-quality solutions, but in the lack of high-quality test suites. Test suites are indispensable both for synthesizing program repair trajectories and for providing precise feedback signals in reinforcement learning. Unfortunately, due to the high cost and difficulty of annotation, high-quality test suites have long been hard to obtain, while those automatically generated by LLMs tend to be superficial and lack sufficient discriminative power. As a first step toward constructing high-quality test suites, we introduce SWE-Mutation, a benchmark for evaluating LLM-generated test suites. The benchmark characterizes test suites by introducing systematically mutated solutions that attempt to ``fool'' the test suites and pass validation. We further propose an agentic, language-agnostic framework for automatically generating complex mutants. Our benchmark consists of 2,636 mutated variants derived from 800 original instances and includes a multilingual subset spanning nine programming languages. Experiments on seven LLMs reveal that even DeepSeek-V3.1 achieves only 10.20% verification and 36.15% detection rates, highlighting the inadequacy of current LLMs. Additionally, our agentic mutation strategy enhances realism, reducing average detection rates from 71.04% to 39.81% compared to conventional methods. These findings expose persistent deficiencies in the ability of current LLMs to generate reliable and discriminative test suites.