Factors Influencing the Quality of AI-Generated Code: A Synthesis of Empirical Evidence

📄 arXiv: 2603.25146v1 📥 PDF

作者: Vehid Geruslu, Zulfiyya Aliyeva, Eray Tüzün

分类: cs.SE, cs.AI

发布日期: 2026-03-26


💡 一句话要点

系统性综述AI代码生成质量影响因素,揭示人机协作关键作用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI代码生成 代码质量 系统文献综述 人机交互 软件工程

📋 核心要点

  1. AI代码生成工具快速发展,但其生成代码的质量、可靠性和安全性问题日益突出,现有研究缺乏系统性整合。
  2. 本研究采用系统文献综述方法,分析影响AI生成代码质量的各种因素,并探讨其对软件质量的影响。
  3. 研究发现,人为因素、AI系统特性和人机交互动态共同影响代码质量,提示设计、任务规范和开发者专业知识是关键因素。

📝 摘要(中文)

本文旨在系统性地综合现有关于影响AI生成源代码质量的经验证据,并分析这些因素如何在不同的评估环境中影响软件质量结果。研究采用系统文献综述(SLR)方法,遵循既定指南,并借助AI辅助工作流程和人工监督。通过对主要数字图书馆进行结构化搜索和筛选,最终选择了24项主要研究。使用定性的、基于模式的证据综合方法提取和分析数据。研究结果表明,AI辅助开发中的代码质量受到人为因素、AI系统特征以及人机交互动态的综合影响。关键的影响因素包括提示设计、任务规范和开发者专业知识。结果还显示,不同研究中正确性、安全性、可维护性和复杂性等质量结果存在差异,既有改进也有风险。结论是,AI辅助代码生成代表了软件工程中的一种社会技术转变,实现高质量结果取决于技术和人为因素。虽然前景广阔,但AI生成的代码需要仔细验证并集成到开发工作流程中。

🔬 方法详解

问题定义:论文旨在解决AI辅助代码生成中,影响代码质量的因素有哪些,以及这些因素如何影响软件质量的问题。现有方法缺乏对这些因素的系统性分析和综合,导致对AI生成代码的质量评估和改进缺乏理论指导。

核心思路:论文的核心思路是通过系统文献综述(SLR)方法,对已发表的经验研究进行梳理、分析和综合,从而识别出影响AI生成代码质量的关键因素,并理解这些因素的作用机制。这种方法能够提供一个全面的视角,揭示不同研究之间的共性和差异。

技术框架:论文采用的系统文献综述框架包括以下主要阶段: 1. 文献搜索:在主要数字图书馆(如IEEE Xplore, ACM Digital Library)中进行结构化搜索。 2. 文献筛选:根据预定义的纳入和排除标准,筛选出相关的研究。 3. 数据提取:从选定的研究中提取关键信息,如研究目标、方法、结果和结论。 4. 数据分析:使用定性的、基于模式的证据综合方法,分析提取的数据,识别出影响代码质量的因素。 5. 结果综合:将分析结果进行综合,形成对AI生成代码质量影响因素的全面理解。

关键创新:论文的关键创新在于其系统性和全面性。它不是针对某个特定的AI模型或编程任务进行研究,而是对整个AI辅助代码生成领域进行综述,从而识别出普遍适用的影响因素。此外,论文还强调了人机交互在代码质量中的重要作用,这在以往的研究中往往被忽视。

关键设计:论文的关键设计在于其严格的文献搜索和筛选流程,以及其采用的定性数据分析方法。为了确保研究的可靠性和有效性,论文遵循了既定的系统文献综述指南,并采用了AI辅助工具来提高效率。此外,论文还特别关注不同研究之间的异质性,并尝试解释这些异质性对结果的影响。

📊 实验亮点

研究通过对24篇相关文献的系统性分析,揭示了提示设计、任务规范和开发者专业知识等关键因素对AI生成代码质量的影响。研究发现,这些因素不仅影响代码的正确性,还影响代码的安全性、可维护性和复杂性。研究强调了人机协作在AI辅助代码生成中的重要性,并指出需要仔细验证和集成AI生成的代码。

🎯 应用场景

该研究成果可应用于指导AI辅助代码生成工具的开发和使用,帮助开发者更好地利用AI提高开发效率,同时保证代码质量。研究结果还可以为软件工程教育提供参考,帮助学生了解AI辅助开发的优势和挑战。此外,该研究也为未来的研究方向提供了指导,例如如何设计更有效的提示、如何提高AI模型的代码生成能力、以及如何优化人机交互过程。

📄 摘要(原文)

Context: The rapid adoption of AI-assisted code generation tools, such as large language models (LLMs), is transforming software development practices. While these tools promise significant productivity gains, concerns regarding the quality, reliability, and security of AI-generated code are increasingly reported in both academia and industry. --Objective: This study aims to systematically synthesize existing empirical evidence on the factors influencing the quality of AI-generated source code and to analyze how these factors impact software quality outcomes across different evaluation contexts. --Method: We conducted a systematic literature review (SLR) following established guidelines, supported by an AI-assisted workflow with human oversight. A total of 24 primary studies were selected through a structured search and screening process across major digital libraries. Data were extracted and analyzed using qualitative, pattern-based evidence synthesis. --Results: The findings reveal that code quality in AI-assisted development is influenced by a combination of human factors, AI system characteristics, and human AI interaction dynamics. Key influencing factors include prompt design, task specification, and developer expertise. The results also show variability in quality outcomes such as correctness, security, maintainability, and complexity across studies, with both improvements and risks reported. --Conclusion: AI-assisted code generation represents a socio-technical shift in software engineering, where achieving high-quality outcomes depends on both technological and human factors. While promising, AI-generated code requires careful validation and integration into development workflows.