Runtime-Structured Task Decomposition for Agentic Coding Systems
作者: Shubhi Asthana, Bing Zhang, Chad DeLuca, Hima Patel, Ruchi Mahindru
分类: cs.SE, cs.AI
发布日期: 2026-05-14
备注: Paper presented at ACM Conference on AI and Agentic Systems 2026 at the Agentic Software Engineering workshop
💡 一句话要点
提出运行时结构化任务分解,提升Agentic编码系统效率与可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic编码系统 任务分解 大型语言模型 运行时结构化 软件工程 调试 根因分析
📋 核心要点
- 现有Agentic编码系统依赖单体提示,导致脆弱性、调试困难和高重试成本。
- 提出运行时结构化任务分解,通过可执行控制逻辑管理任务划分和执行流程。
- 实验表明,该方法显著降低重试成本,提升效率和可靠性,优于单体和静态分解。
📝 摘要(中文)
Agentic编码系统越来越多地使用大型语言模型(LLMs)来执行软件工程任务,如调试、根本原因分析和代码审查。然而,许多现有系统将任务逻辑、执行流程和输出生成编码在单一的提示中。这种设计导致脆弱的行为、有限的可调试性和高昂的重试成本,因为失败通常需要重新运行整个工作流程。本文提出了一种运行时结构化任务分解的架构方法,其中任务划分和执行流程通过可执行的控制逻辑来管理,而不仅仅依赖于提示结构。LLM仅用于聚焦的判断任务,并且输出在下游执行之前会根据预定义的模式进行验证。在两个软件工程工作负载上,使用三种配置评估了这种方法:整体执行、具有固定子任务且没有运行时分支的静态分解以及运行时结构化分解。结果表明,仅分解并不一定能降低重试成本。运行时结构化方法仅重新运行失败的子任务,从而降低了重试成本,提高了Agentic编码系统的效率、可调试性和操作可靠性。
🔬 方法详解
问题定义:现有Agentic编码系统在软件工程任务中,如调试和根因分析,依赖于大型语言模型(LLMs),但通常将任务逻辑、执行流程和输出生成全部编码在单一的提示中。这种单体式设计存在几个关键痛点:一是系统行为脆弱,容易因小错误导致整体失败;二是调试困难,难以定位问题根源;三是重试成本高昂,任何失败都需要重新运行整个流程,浪费计算资源。
核心思路:本文的核心思路是将复杂的软件工程任务分解为更小、更易于管理和调试的子任务,并使用可执行的控制逻辑来编排这些子任务的执行流程。关键在于,不是简单地静态分解任务,而是根据运行时的状态和结果动态地调整执行路径。这种方法借鉴了传统软件工程中的模块化和控制流管理思想,将其应用于基于LLM的Agentic系统中。
技术框架:该方法的核心架构包含以下几个关键模块:1) 任务分解器:负责将原始任务分解为一系列子任务,每个子任务都有明确的输入和输出模式。2) LLM执行器:负责执行每个子任务,利用LLM进行判断和生成,但仅限于聚焦的、定义明确的任务。3) 输出验证器:在子任务执行后,验证其输出是否符合预定义的模式,确保输出的质量和一致性。4) 控制逻辑:根据子任务的执行结果和验证结果,动态地决定下一步执行哪个子任务,实现运行时分支和错误处理。
关键创新:该方法最重要的技术创新在于运行时结构化任务分解。与传统的单体式提示和静态任务分解相比,它能够根据运行时的状态动态地调整执行流程,从而提高系统的鲁棒性和效率。通过将LLM的使用限制在聚焦的判断任务中,并对输出进行验证,可以减少LLM的幻觉和错误,提高系统的可靠性。
关键设计:在具体实现上,控制逻辑可以使用编程语言(如Python)来实现,利用条件语句和循环结构来控制子任务的执行顺序。输出验证器可以使用正则表达式或更复杂的模式匹配算法来验证输出是否符合预定义的模式。对于不同的软件工程任务,需要设计不同的任务分解策略和输出模式。关键参数包括子任务的粒度、输出模式的严格程度以及控制逻辑的复杂程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,运行时结构化任务分解方法在Kubernetes根因分析和多文件调试两个任务上,显著降低了重试成本。在根因分析任务中,运行时结构化方法将重试成本降低到436 +/- 132 tokens,相比单体方法降低了51.7%,相比静态分解降低了73.2%。在多文件调试任务中,运行时结构化方法的重试成本为460 tokens,同样优于其他两种基线方法。这些结果表明,该方法能够有效提高Agentic编码系统的效率和可靠性。
🎯 应用场景
该研究成果可广泛应用于各种软件工程任务中,例如自动化调试、代码审查、根因分析、代码生成和重构等。通过提高Agentic编码系统的效率和可靠性,可以显著降低软件开发的成本和时间,并提高软件质量。未来,该方法可以进一步扩展到其他领域,例如自然语言处理、机器人和智能制造等。
📄 摘要(原文)
Agentic coding systems increasingly use large language models (LLMs) for software engineering tasks such as debugging, root cause analysis, and code review. However, many existing systems encode task logic, execution flow, and output generation inside monolithic prompts. This design creates brittle behavior, limited debuggability, and high retry costs because failures often require rerunning the full workflow. We present runtime-structured task decomposition, an architectural approach in which task partitioning and execution flow are managed through executable control logic rather than prompt structure alone. LLMs are used only for focused judgment tasks, and outputs are validated against predefined schemas before downstream execution. We evaluate this approach on two software engineering workloads using three configurations: monolithic execution, static decomposition with fixed subtasks and no runtime branching, and runtime-structured decomposition. Each configuration was evaluated across 10 runs. Our results show that decomposition alone does not necessarily reduce retry cost. In the Kubernetes root cause analysis workload, the static decomposition baseline produced a retry cost of 1,632 +/- 145 tokens versus 904 +/- 17 tokens for the monolithic baseline because failures forced reruns of downstream subtasks. A similar pattern appeared in the multi-file debugging workload, where the static baseline consumed 933 tokens compared to 703 tokens for the monolithic system. The runtime-structured approach reran only failed subtasks, reducing retry costs to 436 +/- 132 tokens for root cause analysis and 460 tokens for debugging. Overall, the approach achieved up to 51.7% lower retry cost than monolithic systems and 73.2% lower retry cost than static decomposition baselines, improving efficiency, debuggability, and operational reliability in agentic coding systems.