WALL: A Web Application for Automated Quality Assurance using Large Language Models

📄 arXiv: 2509.09918v1 📥 PDF

作者: Seyed Moein Abtahi, Akramul Azim

分类: cs.SE, cs.AI

发布日期: 2025-09-12


💡 一句话要点

WALL:利用大型语言模型实现自动化代码质量保证的Web应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码质量保证 大型语言模型 自动化代码修复 静态代码分析 SonarQube

📋 核心要点

  1. 现有软件项目复杂性增加,代码问题检测、解决和评估面临挑战,需要更高效的工具。
  2. WALL集成了SonarQube和LLMs,通过问题提取、代码修改和比较模块,自动化代码质量保证流程。
  3. 实验表明,WALL能有效减少人工干预,同时保持高质量的代码修订,混合使用LLMs可降低成本。

📝 摘要(中文)

随着软件项目日益复杂,代码文件中的问题数量和种类也显著增加。为了应对这一挑战,需要高效的问题检测、解决和评估工具。本文介绍了一个名为WALL的Web应用程序,它集成了SonarQube和大型语言模型(LLMs),如GPT-3.5 Turbo和GPT-4o,以自动化这些任务。WALL包含三个模块:问题提取工具、代码问题修改器和代码比较工具。它们共同构成了一个无缝的流程,用于检测软件问题、生成自动代码修订并评估修订的准确性。在包含超过7,599个问题的563个文件上进行的实验表明,WALL在减少人工工作量的同时保持了高质量的修订。结果表明,采用经济高效和先进的LLM的混合方法可以显著降低成本并提高修订率。未来的工作旨在通过集成开源LLM并消除人工干预来增强WALL的功能,从而为完全自动化的代码质量管理铺平道路。

🔬 方法详解

问题定义:论文旨在解决软件开发中日益增长的代码质量问题,特别是代码缺陷的自动检测、修复和验证。现有方法通常依赖于人工代码审查或静态代码分析工具,前者效率低下且成本高昂,后者则可能产生大量误报和漏报,难以满足复杂软件项目的需求。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大代码理解和生成能力,结合静态代码分析工具(如SonarQube)的精确问题定位能力,构建一个自动化代码质量保证平台。通过LLM自动生成代码修复建议,并进行验证,从而减少人工干预,提高代码质量保证的效率和准确性。

技术框架:WALL的整体架构包含三个主要模块:1) 问题提取工具:利用SonarQube等静态代码分析工具,从代码库中提取潜在的代码问题。2) 代码问题修改器:使用LLMs(如GPT-3.5 Turbo和GPT-4o)分析提取的问题,并生成相应的代码修复建议。3) 代码比较工具:比较原始代码和LLM修改后的代码,评估修复的有效性和准确性。整个流程形成一个自动化的闭环,持续改进代码质量。

关键创新:WALL的关键创新在于将静态代码分析工具和大型语言模型相结合,实现代码质量保证的自动化。与传统方法相比,WALL能够更准确地识别代码问题,并生成更有效的修复建议。此外,WALL还探索了不同LLM的性能和成本效益,提出了一种混合使用不同LLM的策略,以在成本和性能之间取得平衡。

关键设计:WALL的关键设计包括:1) LLM的选择和配置:选择了GPT-3.5 Turbo和GPT-4o等具有强大代码理解和生成能力的LLM,并针对代码修复任务进行了微调。2) 问题描述的格式化:将SonarQube提取的问题信息进行格式化,以便LLM能够更好地理解问题并生成修复建议。3) 修复建议的验证:通过代码比较工具,验证LLM生成的修复建议是否有效,并避免引入新的问题。4) 成本效益的考量:探索了不同LLM的成本和性能,并提出了一种混合使用不同LLM的策略,以在成本和性能之间取得平衡。

📊 实验亮点

实验结果表明,WALL能够有效减少人工代码审查的工作量,同时保持较高的代码修复质量。通过在包含超过7,599个问题的563个文件上进行测试,WALL展示了其在自动化代码质量保证方面的潜力。研究还发现,采用经济高效和先进的LLM的混合方法可以显著降低成本并提高修订率,为实际应用提供了有价值的参考。

🎯 应用场景

WALL具有广泛的应用前景,可应用于各种软件开发场景,包括Web应用、移动应用和嵌入式系统等。它可以帮助开发团队提高代码质量,减少缺陷,缩短开发周期,降低维护成本。此外,WALL还可以用于代码审查和代码重构等任务,提高开发效率和代码可维护性。未来,WALL有望成为软件开发流程中不可或缺的一部分,推动软件工程的自动化和智能化。

📄 摘要(原文)

As software projects become increasingly complex, the volume and variety of issues in code files have grown substantially. Addressing this challenge requires efficient issue detection, resolution, and evaluation tools. This paper presents WALL, a web application that integrates SonarQube and large language models (LLMs) such as GPT-3.5 Turbo and GPT-4o to automate these tasks. WALL comprises three modules: an issue extraction tool, code issues reviser, and code comparison tool. Together, they enable a seamless pipeline for detecting software issues, generating automated code revisions, and evaluating the accuracy of revisions. Our experiments, conducted on 563 files with over 7,599 issues, demonstrate WALL's effectiveness in reducing human effort while maintaining high-quality revisions. Results show that employing a hybrid approach of cost-effective and advanced LLMs can significantly lower costs and improve revision rates. Future work aims to enhance WALL's capabilities by integrating open-source LLMs and eliminating human intervention, paving the way for fully automated code quality management.