Synthesizing Procedural Memory: Challenges and Architectures in Automated Workflow Generation

📄 arXiv: 2512.20278v1 📥 PDF

作者: Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj

分类: cs.AI

发布日期: 2025-12-23

备注: 7 pages


💡 一句话要点

提出一种自动工作流生成方法,解决大型语言模型从工具使用者到工作流架构师的转变难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工作流生成 程序记忆 大型语言模型 自动化 代码合成 跨服务编排 智能体

📋 核心要点

  1. 现有方法缺乏自主合成程序记忆的机制,限制了大型语言模型在复杂任务中的应用。
  2. 论文提出一种基于假设、探测和编码的科学方法,使智能体能够自主编写代码技能。
  3. 通过Outlook和OneDrive的跨服务编排案例研究,验证了该方法在解决自动技能生成瓶颈方面的有效性。

📝 摘要(中文)

尽管CodeMem确立了可执行代码作为智能体程序记忆的最佳表示形式,但自主地从零开始合成这种记忆的机制仍未得到充分探索。本文旨在推动大型语言模型从被动工具使用者转变为主动工作流架构师。通过对涉及Outlook和OneDrive的跨服务编排任务进行高保真案例研究,我们识别并解决了自动技能生成中的四个结构性瓶颈:涉及大型工具注册表导航的发现差距、关于基础工具响应结构的验证差距、用线性状态锚定取代低效搜索的分解差距,以及关注并发和持久性的扩展差距。我们证明,通过执行假设、探测和编码的科学方法,智能体可以自主编写健壮的、生产级别的代码技能。

🔬 方法详解

问题定义:现有方法主要依赖人工设计工作流或简单的工具调用,无法充分利用大型语言模型的潜力,自主生成复杂的、可执行的程序记忆。痛点在于:难以发现和利用大量可用的工具,难以验证工具响应的正确性,难以将复杂任务分解为可执行的步骤,以及难以处理并发和持久性等扩展性问题。

核心思路:论文的核心思路是将大型语言模型从被动工具使用者转变为主动工作流架构师。通过引入一种迭代的“假设、探测、编码”流程,使智能体能够自主探索工具的功能,验证工具的响应,并将复杂任务分解为一系列可执行的代码步骤。这种方法旨在克服自动技能生成中的各种瓶颈,并生成健壮的、生产级别的代码技能。

技术框架:整体框架包含以下几个主要阶段:1) 发现阶段:智能体探索可用的工具和服务,并选择合适的工具来解决当前的问题。2) 验证阶段:智能体通过探测工具的API,验证工具的响应结构,并确保工具能够按照预期工作。3) 分解阶段:智能体将复杂任务分解为一系列可执行的步骤,并使用线性状态锚定来优化搜索过程。4) 编码阶段:智能体将分解后的步骤转换为可执行的代码,并处理并发和持久性等扩展性问题。

关键创新:最重要的技术创新点在于将“假设、探测、编码”的科学方法应用于自动工作流生成。这种方法使智能体能够自主学习和适应新的工具和服务,并生成健壮的、可执行的代码技能。与现有方法相比,该方法更加灵活和可扩展,能够处理更复杂的任务。

关键设计:论文中关键的设计包括:1) 使用大型语言模型作为智能体的核心推理引擎;2) 设计了一种线性状态锚定机制,用于优化任务分解过程;3) 采用了一种基于代码的程序记忆表示形式,使智能体能够高效地存储和检索知识;4) 实现了对并发和持久性的支持,使智能体能够处理更复杂的任务。

📊 实验亮点

该论文通过在Outlook和OneDrive的跨服务编排任务上的实验,验证了所提出方法的有效性。实验结果表明,该方法能够自主生成健壮的、生产级别的代码技能,并有效地解决了自动技能生成中的四个结构性瓶颈。具体的性能数据和对比基线在论文中进行了详细描述。

🎯 应用场景

该研究成果可应用于自动化办公、智能助手、机器人流程自动化(RPA)等领域。通过自动生成工作流,可以显著提高工作效率,降低人工成本,并实现更智能化的任务处理。未来,该技术有望应用于更广泛的领域,例如智能制造、智慧城市等。

📄 摘要(原文)

While CodeMem establishes executable code as the optimal representation for agentic procedural memory, the mechanism for autonomously synthesizing this memory from a blank slate remains underexplored. This paper operationalizes the transition of Large Language Models from passive tool-users to active workflow architects. Through a high-fidelity case study of a cross-service orchestration task involving Outlook and OneDrive, we identify and address four structural bottlenecks in automated skill generation: the Discovery Gap involving navigation of large tool registries, the Verification Gap regarding grounding tool response structures, the Decomposition Gap which replaces inefficient search with Linear State Anchoring, and the Scaling Gap focused on concurrency and persistence. We demonstrate that by enforcing a scientific methodology of hypothesize, probe, and code, agents can autonomously write robust, production-grade code skills.