LLM-Assisted Repository-Level Generation with Structured Spec-Driven Engineering
作者: Shuzhao Feng, Boqi Chen, Brett H Meyer, Gunter Mussbacher
分类: cs.SE, cs.AI
发布日期: 2026-05-04
备注: Accepted to the 34th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (FSE Companion '26)
💡 一句话要点
提出结构化规约驱动工程(SSDE),提升LLM在仓库级代码生成的质量和可验证性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 大型语言模型 结构化规约 软件工程 模型驱动开发
📋 核心要点
- 现有方法依赖自然语言提示,导致仓库级别代码生成质量下降,且缺乏可验证性。
- 提出结构化规约驱动工程(SSDE),利用结构化制品指导LLM生成,提升代码质量。
- 通过试点研究,验证了SSDE在生成MVC业务逻辑方面的可行性,并探讨了未来发展方向。
📝 摘要(中文)
当前的大型语言模型(LLM)在函数级别的代码生成方面表现出色。然而,当扩展到仓库级别的系统时,输出质量会显著下降。目前仅依赖自然语言提示的工作流程存在固有的模糊性和缺乏可验证性。为了解决这个问题,我们提出了一种结构化规约驱动工程(SSDE)的范例,该范例利用结构化的制品来指导LLM生成。我们认为,作为LLM输入的结构化规约使得高质量的仓库级别代码生成成为一个切实可行的目标,同时提供卓越的可验证性,从而带来巨大的改进潜力。我们首先通过一个试点研究来调查这种愿景的可行性,该研究使用五个LLM为三个软件系统生成模型-视图-控制器(MVC)业务逻辑,然后强调SSDE的潜力、挑战和未来路线图。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在仓库级别代码生成中质量下降的问题。现有方法主要依赖于自然语言提示,这导致了固有的模糊性,并且生成的代码难以验证,从而限制了LLM在复杂软件系统开发中的应用。
核心思路:论文的核心思路是利用结构化的规约(specifications)来指导LLM进行代码生成。通过提供结构化的输入,可以减少LLM理解上的歧义,并使其能够生成更准确、更一致的代码。同时,结构化规约也便于代码的验证和测试,从而提高整体的软件质量。
技术框架:SSDE框架的核心在于使用结构化的制品作为LLM的输入。具体流程包括:首先,定义清晰的结构化规约,例如使用特定的数据结构或领域特定语言(DSL)来描述软件系统的需求和行为。然后,将这些结构化规约输入到LLM中,LLM根据规约生成相应的代码。最后,对生成的代码进行验证和测试,以确保其符合规约的要求。论文主要关注MVC架构的业务逻辑生成。
关键创新:该方法最重要的创新点在于将结构化规约引入到LLM的代码生成流程中。与传统的基于自然语言提示的方法相比,SSDE能够提供更精确、更明确的指导,从而显著提高代码生成的质量和可验证性。这种方法改变了LLM在软件开发中的角色,使其从一个简单的代码补全工具转变为一个能够生成复杂软件系统的智能助手。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为其重点在于提出SSDE这一概念框架并验证其可行性。试点研究中使用了现有的LLM,并针对MVC架构的业务逻辑生成设计了特定的结构化规约。未来的研究可以进一步探索不同类型的结构化规约、更高效的LLM训练方法以及更完善的代码验证技术。
🖼️ 关键图片
📊 实验亮点
论文通过试点研究,验证了SSDE在生成MVC业务逻辑方面的可行性。使用五个LLM为三个软件系统生成代码,结果表明,通过结构化规约的引导,LLM能够生成更高质量、更可验证的代码。虽然论文没有给出具体的性能数据,但强调了SSDE在提高代码质量和可验证性方面的潜力。
🎯 应用场景
该研究成果可应用于自动化软件开发、低代码/无代码平台、以及基于模型的软件工程等领域。通过结构化规约驱动的代码生成,可以显著提高软件开发的效率和质量,降低开发成本,并促进软件系统的可维护性和可扩展性。未来,SSDE有望成为一种主流的软件开发范例。
📄 摘要(原文)
State-of-the-art Large Language Models (LLMs) excel in code generation at the function level. However, the output quality significantly declines when scaling to repository-level systems. Current workflows relying only on natural language prompts suffer from inherent ambiguity and a lack of verifiability. To address this, we propose structured spec-driven engineering (SSDE), a paradigm that leverages structured artifacts to guide LLM generation. We argue that structured specifications as LLM inputs make high-quality, repository-level code generation a tangible goal, while at the same time offering superior verifiability, leading to significant potential for improvement. We first investigate the feasibility of this vision through a pilot study generating Model-View-Controller (MVC) business logic for three software systems using five LLMs, and then highlight the potential, challenges, and future roadmap for SSDE.