A Survey on Code Generation with LLM-based Agents
作者: Yihong Dong, Xue Jiang, Jiaru Qian, Tian Wang, Kechi Zhang, Zhi Jin, Ge Li
分类: cs.SE, cs.AI, cs.CL, cs.LG
发布日期: 2025-07-31 (更新: 2025-09-30)
备注: Work in progress (V2)
💡 一句话要点
综述基于LLM的智能体在代码生成中的应用,涵盖技术、应用、评估与挑战。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 大型语言模型 智能体 软件开发生命周期 自主性 多智能体系统 工程实用性 代码调试
📋 核心要点
- 现有代码生成技术难以自主管理软件开发全流程,且工程实用性不足,面临系统可靠性等挑战。
- 利用LLM构建代码生成智能体,使其具备自主性、扩展任务范围和提升工程实用性的能力。
- 该领域研究迅速发展,应用潜力巨大,但仍面临诸多挑战,需要进一步探索基础性研究方向。
📝 摘要(中文)
本文系统性地综述了基于大型语言模型(LLM)的代码生成智能体领域。与以往的代码生成技术不同,代码生成智能体的特点在于三个核心特征:1) 自主性:独立管理整个工作流程的能力,从任务分解到编码和调试;2) 扩展的任务范围:能力超越了生成代码片段,涵盖了完整的软件开发生命周期(SDLC);3) 提升工程实用性:研究重点从算法创新转向实际工程挑战,如系统可靠性、流程管理和工具集成。该领域最近发展迅速,研究呈爆炸式增长,显示出巨大的应用潜力。本文追溯了该技术从诞生到发展的轨迹,系统地对其核心技术进行分类,包括单智能体和多智能体架构。此外,本综述详细介绍了基于LLM的智能体在整个SDLC中的应用,总结了主流的评估基准和指标,并编录了代表性工具。最后,通过分析主要挑战,我们为该领域的未来工作确定并提出了几个基础性的、长期的研究方向。
🔬 方法详解
问题定义:现有代码生成技术通常只能生成代码片段,无法自主完成从任务分解到编码调试的完整软件开发流程。同时,以往的研究更侧重于算法创新,忽略了实际工程中的可靠性、流程管理和工具集成等问题。
核心思路:利用大型语言模型(LLM)的强大能力,构建具有自主性的代码生成智能体。这些智能体能够独立管理整个工作流程,扩展任务范围至整个软件开发生命周期(SDLC),并更加注重工程实用性。
技术框架:该领域的研究可以分为单智能体和多智能体架构。单智能体架构通常依赖于单个LLM来完成所有任务,而多智能体架构则将任务分解给多个LLM智能体协同完成,每个智能体负责不同的角色和功能。整体流程包括任务分解、代码生成、测试调试、以及最终的代码集成等阶段。
关键创新:该领域最重要的创新在于将LLM应用于代码生成,并赋予其自主性。与传统的代码生成方法相比,基于LLM的智能体能够理解更复杂的任务需求,生成更完整的代码,并能够自主进行调试和优化。此外,该领域的研究更加关注工程实用性,例如如何提高系统的可靠性、如何管理开发流程、以及如何与现有工具集成。
关键设计:关键设计包括如何设计合适的prompt来引导LLM生成高质量的代码,如何利用强化学习等技术来优化LLM的性能,以及如何设计有效的多智能体协作机制。此外,还需要考虑如何处理代码生成过程中的错误和异常情况,以及如何保证代码的安全性和可靠性。
🖼️ 关键图片
📊 实验亮点
该综述总结了当前基于LLM的代码生成智能体的研究进展,并对单智能体和多智能体架构进行了分类。同时,该综述还详细介绍了基于LLM的智能体在整个SDLC中的应用,总结了主流的评估基准和指标,并编录了代表性工具。此外,该综述还分析了主要挑战,并为该领域的未来工作确定并提出了几个基础性的、长期的研究方向。
🎯 应用场景
该研究成果可应用于自动化软件开发、代码辅助生成、智能代码审查等领域,能够显著提高软件开发效率,降低开发成本,并提升软件质量。未来,随着LLM技术的不断发展,基于LLM的代码生成智能体将在软件开发领域发挥越来越重要的作用。
📄 摘要(原文)
Code generation agents powered by large language models (LLMs) are revolutionizing the software development paradigm. Distinct from previous code generation techniques, code generation agents are characterized by three core features. 1) Autonomy: the ability to independently manage the entire workflow, from task decomposition to coding and debugging. 2) Expanded task scope: capabilities that extend beyond generating code snippets to encompass the full software development lifecycle (SDLC). 3) Enhancement of engineering practicality: a shift in research emphasis from algorithmic innovation toward practical engineering challenges, such as system reliability, process management, and tool integration. This domain has recently witnessed rapid development and an explosion in research, demonstrating significant application potential. This paper presents a systematic survey of the field of LLM-based code generation agents. We trace the technology's developmental trajectory from its inception and systematically categorize its core techniques, including both single-agent and multi-agent architectures. Furthermore, this survey details the applications of LLM-based agents across the full SDLC, summarizes mainstream evaluation benchmarks and metrics, and catalogs representative tools. Finally, by analyzing the primary challenges, we identify and propose several foundational, long-term research directions for the future work of the field.