Intermediate Artifacts as First-Class Citizens: A Data Model for Durable Intermediate Artifacts in Agentic Systems
作者: Josh Rosen, Seth Rosen
分类: cs.AI, cs.MA
发布日期: 2026-05-12
备注: 18 pages, 1 figure, 3 tables
💡 一句话要点
提出一种数据模型,用于在Agent系统中持久化中间产物,提升可维护性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent系统 中间产物 数据模型 持久化 版本控制 可维护性 可解释性
📋 核心要点
- 现有Agent系统中间过程数据易丢失,最终结果是有损投影,缺乏可追溯性和可维护性。
- 提出一种数据模型,将中间产物视为一等公民,持久化存储并支持版本控制和依赖关系管理。
- 该模型旨在提升AI生成内容的可检查性、可修改性和可维护性,而非直接提升模型智能。
📝 摘要(中文)
许多AI系统围绕模型推理、调用工具、观察结果的循环构建,直至完成任务。这些系统通常生成最终产物,如备忘录、计划、建议和分析,而塑造这些输出的中间工作成果却转瞬即逝。对于多步骤、可修改的AI工作而言,最终产物通常是有损的上游状态投影。本文提出,此类系统应保存持久、可检查的中间产物:类型化、结构化、可寻址、版本化、依赖感知、权威且可被下游计算消费。这些产物不是模型的私有思维链,而是维护的工作成果,如证据图、声明结构、标准、假设、计划、转换规则、综合程序、未解决的矛盾和部分产品,供后续人类和Agent检查、修改、取代和改进。本文贡献是一种系统级数据模型,区分了中间产物与聊天记录、记忆、隐藏的思维链、叙述、思考和最终答案;形式化了具有显式当前状态解析的增量和取代更新语义;描述了产物谱系如何支持跨修订的持久中间状态;并认为评估必须针对维护状态的质量,而不仅仅是最终输出的质量。核心观点并非产物使模型更智能,而是持久的中间产物使AI生成的工作在时间推移上更具可检查性、可修改性和可维护性。
🔬 方法详解
问题定义:现有Agent系统在执行复杂任务时,会产生大量的中间结果,例如证据地图、草案计划、中间分析结果等。这些中间结果通常是短暂的,没有被妥善保存和管理。这导致了几个问题:1) 难以追溯最终结果的来源和推理过程;2) 难以对中间结果进行修改和迭代;3) 难以在不同的任务之间复用中间结果。现有方法通常侧重于优化最终输出,而忽略了中间过程的重要性。
核心思路:论文的核心思路是将中间产物视为“一等公民”,即与最终结果同等重要。通过建立一个系统级的数据模型,对中间产物进行持久化存储、版本控制和依赖关系管理。这样可以使得中间产物具有可检查性、可修改性和可复用性,从而提升整个AI系统的可维护性和可解释性。论文强调,目标不是让模型更聪明,而是让AI生成的工作更易于理解和改进。
技术框架:该论文提出了一个系统级的数据模型,用于管理Agent系统中的中间产物。该模型包含以下几个关键组件:1) 类型化的数据结构,用于表示不同类型的中间产物;2) 可寻址的存储机制,用于持久化存储中间产物;3) 版本控制机制,用于跟踪中间产物的修改历史;4) 依赖关系管理机制,用于记录中间产物之间的依赖关系;5) 更新语义,定义了如何添加和取代现有的中间产物。整体流程包括Agent生成中间产物,系统根据数据模型存储和管理这些产物,下游任务或人工可以检查、修改或复用这些产物。
关键创新:该论文最重要的技术创新点在于将中间产物提升到“一等公民”的地位,并提出了一个系统级的数据模型来支持这一理念。与现有方法相比,该方法更加注重中间过程的可维护性和可解释性,而不仅仅是最终输出的质量。此外,该模型还引入了版本控制和依赖关系管理等机制,使得中间产物可以被更好地管理和复用。
关键设计:论文侧重于数据模型的概念和架构,并未涉及具体的参数设置、损失函数或网络结构等技术细节。关键设计在于定义了中间产物的类型、存储方式、版本控制策略和依赖关系管理方法。例如,如何定义不同类型的中间产物(证据、假设、计划等),如何使用唯一的地址来标识和访问中间产物,如何跟踪中间产物的修改历史,以及如何记录中间产物之间的依赖关系。
📊 实验亮点
论文侧重于提出一种新的数据模型和设计理念,并没有提供具体的实验结果。其亮点在于强调了中间产物的重要性,并提供了一个系统化的方法来管理这些产物。未来的研究可以基于该模型进行实验验证,例如,通过对比使用该模型和不使用该模型的Agent系统在解决复杂任务时的性能和可维护性。
🎯 应用场景
该研究成果可应用于各种需要可追溯性和可维护性的AI系统中,例如:智能客服、决策支持系统、代码生成工具等。通过持久化中间产物,可以方便地进行问题诊断、结果复现和知识复用,从而提高AI系统的可靠性和效率。未来,该模型可以进一步扩展到支持更复杂的中间产物类型和更灵活的依赖关系管理。
📄 摘要(原文)
Many AI systems are organized around loops in which models reason, call tools, observe results, and continue until a task is complete. These systems often produce final artifacts such as memos, plans, recommendations, and analyses, while the intermediate work that shaped those outputs remains ephemeral. For multi-step, revisable AI work, final artifacts are often lossy projections over upstream state. We argue that such systems should preserve durable, inspectable intermediate artifacts: typed, structured, addressable, versioned, dependency-aware, authoritative, and consumable by downstream computation. These artifacts are not the model's private chain-of-thought. They are maintained work products such as evidence maps, claim structures, criteria, assumptions, plans, transformation rules, synthesis procedures, unresolved tensions, and partial products that later humans and agents can inspect, revise, supersede, and improve. The contribution is a systems-level data model. We distinguish intermediate artifacts from chat transcripts, memory, hidden chain-of-thought, narration, thinking, and final answers; formalize additive and superseding update semantics with explicit current-state resolution; describe how artifact lineage supports durable intermediate state across revisions; and argue that evaluation must target maintained-state quality, not only final-output quality. The claim is not that artifacts make models smarter. It is that durable intermediate artifacts make AI-generated work more inspectable, revisable, and maintainable over time.