The Semi-Executable Stack: Agentic Software Engineering and the Expanding Scope of SE

📄 arXiv: 2604.15468v1 📥 PDF

作者: Robert Feldt, Per Lenberg, Julian Frattini, Dhasarathy Parthasarathy

分类: cs.SE, cs.AI

发布日期: 2026-04-16

备注: This paper is the write-up of Robert Feldt's keynote "Agentic Software Engineering Will Eat the World: AI-Based Systems as the New Operating System of Society'' given at the Agentic Engineering 2026 workshop, Rio de Janeiro, Brazil, April 14, 2026


💡 一句话要点

提出半可执行栈模型,应对AI驱动下软件工程范畴扩展至半可执行工件的挑战。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程 人工智能 半可执行栈 LLM 工具代理 软件开发 AI驱动

📋 核心要点

  1. AI工具的快速发展对传统软件工程构成挑战,部分任务自动化程度提高,引发从业者对自身价值的担忧。
  2. 论文提出“半可执行栈”模型,将软件工程的范畴扩展到包含自然语言、工具和工作流等半可执行工件。
  3. 该模型提供了一个诊断框架,帮助定位贡献、瓶颈和组织转型,并指导遗留流程的改进和重新设计。

📝 摘要(中文)

基于LLM和工具代理的AI系统正日益被认为是软件工程的潜在威胁。基础模型能力增强,代理可以规划和执行多步骤任务,使得诸如脚手架搭建、例行测试生成、简单缺陷修复和小规模集成等任务比几年前更容易受到影响。本文认为,重要的转变不是软件工程失去相关性,而是被工程化的对象从可执行代码扩展到半可执行工件,即自然语言、工具、工作流、控制机制和组织例程的组合,其执行依赖于人类或概率解释,而非确定性执行。本文提出了半可执行栈,这是一个六环诊断参考模型,用于推理这种扩展,涵盖可执行工件、指令性工件、编排执行、控制、操作逻辑以及社会和制度适应性。该模型有助于定位贡献、瓶颈或组织转型的主要位置,以及它所依赖的相邻环。通过三个案例展开论证,将常见的反对意见重新定义为工程目标,而不是驳斥转型的理由,并以保留与提纯的启发式方法来决定哪些遗留软件工程流程、控制和协调例程应该保留,哪些应该简化或重新设计。本文是一篇概念性的主旨演讲稿:诊断性和议程设置性,而非经验性。

🔬 方法详解

问题定义:传统软件工程主要关注可执行代码的构建和维护。然而,随着AI工具的兴起,软件工程的对象正在扩展到包含自然语言描述、工具调用序列、工作流定义等“半可执行”的工件。现有方法难以有效管理和优化这些新型工件,导致软件开发效率提升受限,且难以充分发挥AI的潜力。

核心思路:论文的核心思路是将软件工程的视角从纯粹的可执行代码扩展到“半可执行栈”,即一个包含可执行代码、指令性工件、编排执行、控制、操作逻辑以及社会和制度适应性的多层次模型。通过分析和优化这个栈的各个层次,可以更好地利用AI工具,提升软件工程的整体效率和质量。

技术框架:半可执行栈模型包含六个环:1. 可执行工件(Executable Artifacts):传统的代码和可执行程序;2. 指令性工件(Instructional Artifacts):自然语言描述、API文档等;3. 编排执行(Orchestrated Execution):工具和服务的调用序列;4. 控制(Controls):监控、验证和安全机制;5. 操作逻辑(Operating Logic):业务规则和决策流程;6. 社会和制度适应性(Societal and Institutional Fit):组织结构、文化和法规。该模型旨在帮助分析软件工程问题在哪个环中出现,以及如何通过调整相邻环来解决问题。

关键创新:该论文最重要的创新在于提出了“半可执行栈”的概念,将软件工程的范畴扩展到包含非确定性、依赖于人类解释的工件。这与传统软件工程只关注可执行代码形成了鲜明对比,更符合当前AI驱动的软件开发趋势。

关键设计:该论文主要关注概念模型的构建,而非具体的算法或技术细节。其关键设计在于六环模型的划分,以及如何利用该模型来诊断和解决软件工程问题。论文通过案例分析展示了如何使用该模型来识别瓶颈、优化流程和改进组织结构。

🖼️ 关键图片

fig_0

📊 实验亮点

本文为概念性论文,通过三个案例分析展示了半可执行栈模型的应用,但未提供具体的性能数据或对比基线。其主要贡献在于提出了新的软件工程视角和诊断框架,为未来的研究和实践提供了指导。

🎯 应用场景

该研究成果可应用于指导软件开发团队更好地利用AI工具,提升软件开发效率和质量。通过分析半可执行栈的各个层次,可以识别瓶颈、优化流程,并改进组织结构,从而更好地适应AI驱动的软件开发模式。此外,该模型还可以用于评估和改进现有的软件工程流程和工具。

📄 摘要(原文)

AI-based systems, currently driven largely by LLMs and tool-using agentic harnesses, are increasingly discussed as a possible threat to software engineering. Foundation models get stronger, agents can plan and act across multiple steps, and tasks such as scaffolding, routine test generation, straightforward bug fixing, and small integration work look more exposed than they did only a few years ago. The result is visible unease not only among students and junior developers, but also among experienced practitioners who worry that hard-won expertise may lose value. This paper argues for a different reading. The important shift is not that software engineering loses relevance. It is that the thing being engineered expands beyond executable code to semi-executable artifacts; combinations of natural language, tools, workflows, control mechanisms, and organizational routines whose enactment depends on human or probabilistic interpretation rather than deterministic execution. The Semi-Executable Stack is introduced as a six-ring diagnostic reference model for reasoning about that expansion, spanning executable artifacts, instructional artifacts, orchestrated execution, controls, operating logic, and societal and institutional fit. The model helps locate where a contribution, bottleneck, or organizational transition primarily sits, and which adjacent rings it depends on. The paper develops the argument through three worked cases, reframes familiar objections as engineering targets rather than reasons to dismiss the transition, and closes with a preserve-versus-purify heuristic for deciding which legacy software engineering processes, controls, and coordination routines should be kept and which should be simplified or redesigned. This paper is a conceptual keynote companion: diagnostic and agenda-setting rather than empirical.