From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work

📄 arXiv: 2605.06365v1 📥 PDF

作者: Josh Rosen, Seth Rosen

分类: cs.AI, cs.MA, cs.SE

发布日期: 2026-05-07

备注: 16 pages, 1 figure


💡 一句话要点

提出执行谱系,通过确定性图解决AI原生工作流的可复现性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI原生工作流 执行谱系 有向无环图 可复现性 状态管理

📋 核心要点

  1. 现有基于LLM的Agent工作流依赖隐式对话状态,导致难以维护、隔离更新和传播更改,影响工作流的可复现性。
  2. 论文提出执行谱系,将AI原生工作表示为有向无环图,节点为生成工件的计算,具有显式依赖和稳定边界。
  3. 实验表明,执行谱系在更新任务中能更好地保留中间状态,避免不相关上下文污染,保证跨工件一致性。

📝 摘要(中文)

大型语言模型系统越来越多地被部署为代理工作流,这些工作流交织了推理、工具使用、记忆和迭代改进。这些系统在生成答案方面非常有效,但它们通常依赖于隐式的对话状态,这使得保持稳定的工作成果、隔离不相关的更新或通过中间工件传播更改变得困难。本文介绍了一种执行谱系:一种执行模型,其中AI原生工作被表示为有向无环图(DAG),DAG的节点是生成工件的计算,具有显式的依赖关系、稳定的中间边界和基于身份的重放。目标不是使模型成为更好的单次生成器,而是使不断发展的AI生成工作在变化下可维护。在两个受控的策略备忘更新任务中,我们将执行谱系重放与以循环为中心的更新基线进行了比较。在不相关的分支更新中,DAG重放在所有运行中完全保留了最终备忘,具有零流失和零不相关的分支污染,而循环基线重新生成了备忘并经常导入不相关的上下文。在中间工件编辑中,所有系统都在最终备忘中反映了新的约束,但只有DAG重放实现了完美的上游保留、下游传播、不受影响的工件保留和跨工件一致性。这些结果表明,最终答案质量和维护状态质量是不同的。当任务是有界的综合/更新问题并且所有当前源都适合上下文时,强大的循环基线在生成精炼的最终输出方面仍然具有竞争力,但即时任务成功可能会掩盖部分状态不一致,这种不一致可能会在未来的修订中复合。执行谱系提供了关于应该更改什么、应该保持稳定什么以及工作如何在修订中演变的更强保证。

🔬 方法详解

问题定义:现有基于大型语言模型的Agent工作流,例如那些用于文档编写或代码生成的,通常依赖于循环迭代和隐式的对话状态。这种方式使得工作流难以维护,例如,当需要修改中间步骤时,很难保证最终结果的一致性,也难以避免引入不相关的上下文信息。现有的方法缺乏对工作流状态的明确管理和控制,导致可复现性差,难以进行精细化的修改和调试。

核心思路:论文的核心思路是将AI原生工作流表示为一个有向无环图(DAG),其中每个节点代表一个生成特定工件的计算步骤,边表示依赖关系。通过显式地定义每个步骤的输入和输出,以及它们之间的依赖关系,可以实现对工作流状态的精确控制和管理。这种方法借鉴了软件工程中的谱系追踪思想,使得工作流的执行过程更加透明和可控。

技术框架:执行谱系框架主要包含以下几个核心组件:1)节点(Artifact-Producing Computations):代表生成特定工件的计算步骤,例如,使用LLM生成一段文本或执行一个代码片段。每个节点都有明确的输入和输出。2)边(Dependencies):表示节点之间的依赖关系,例如,一个节点的输入可能依赖于另一个节点的输出。3)有向无环图(DAG):将所有节点和边组织成一个DAG,表示整个工作流的执行流程。4)重放机制(Replay):基于DAG的结构,可以精确地重放工作流的执行过程,或者在修改某个节点后,只重新执行受影响的节点,从而实现高效的更新和维护。

关键创新:最重要的技术创新点在于将AI原生工作流显式地表示为有向无环图,并利用图的结构来管理和控制工作流的状态。与传统的循环迭代方法相比,这种方法能够更好地保证工作流的可复现性、可维护性和可控性。通过显式地定义依赖关系,可以避免不必要的重新计算,减少计算资源的浪费,并提高工作流的效率。

关键设计:论文中没有详细描述具体的参数设置或网络结构,因为该方法主要关注的是工作流的组织和管理方式,而不是特定的模型或算法。关键的设计在于如何将AI原生工作流分解为独立的计算步骤,并定义它们之间的依赖关系。这需要对工作流进行深入的分析和理解,以便能够将其转化为一个清晰、简洁的DAG。

📊 实验亮点

在不相关分支更新任务中,DAG重放完全保留了最终备忘,零流失和零不相关分支污染,而循环基线则重新生成备忘并经常导入不相关的上下文。在中间工件编辑任务中,DAG重放实现了完美的上游保留、下游传播、不受影响的工件保留和跨工件一致性,表明执行谱系在维护工作流状态方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种AI原生工作流,例如文档生成、代码生成、报告撰写等。通过执行谱系,可以提高这些工作流的可复现性、可维护性和可控性,从而降低开发和维护成本,提高工作效率。未来,该方法有望被集成到AI开发平台中,为开发者提供更强大的工具和支持。

📄 摘要(原文)

Large language model systems are increasingly deployed as agentic workflows that interleave reasoning, tool use, memory, and iterative refinement. These systems are effective at producing answers, but they often rely on implicit conversational state, making it difficult to preserve stable work products, isolate irrelevant updates, or propagate changes through intermediate artifacts. We introduce execution lineage: an execution model in which AI-native work is represented as a directed acyclic graph (DAG) of artifact-producing computations with explicit dependencies, stable intermediate boundaries, and identity-based replay. The goal is not to make the model a better one-shot writer, but to make evolving AI-generated work maintainable under change. We compare execution-lineage replay against loop-centric update baselines on two controlled policy-memo update tasks. In an unrelated-branch update, DAG replay preserved the final memo exactly in all runs, with zero churn and zero unrelated-branch contamination, while loop baselines regenerated the memo and frequently imported unrelated context. In an intermediate-artifact edit, all systems reflected the new constraint in the final memo, but only DAG replay achieved perfect upstream preservation, downstream propagation, unaffected-artifact preservation, and cross-artifact consistency. These results show that final answer quality and maintained-state quality are distinct. Strong loop baselines can remain competitive at producing polished final outputs when the task is a bounded synthesis/update problem and all current sources fit in context, but immediate task success can mask partial state inconsistency that may compound over future revisions. Execution lineage provides stronger guarantees about what should change, what should remain stable, and how work evolves across revisions.