Blueprint First, Model Second: A Framework for Deterministic LLM Workflow

📄 arXiv: 2508.02721v1 📥 PDF

作者: Libin Qiu, Yuhang Ye, Zhirong Gao, Xide Zou, Junfu Chen, Ziming Gui, Weizhi Huang, Xiaobo Xue, Wenkai Qiu, Kun Zhao

分类: cs.SE, cs.AI, cs.PL

发布日期: 2025-08-01

备注: 8 pages, 6 figures, 3 tables


💡 一句话要点

提出Source Code Agent框架,解决LLM Agent在结构化环境中的不确定性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 确定性执行 工作流自动化 源代码蓝图 结构化环境

📋 核心要点

  1. 现有LLM Agent在结构化环境中应用受限,因为其不确定性导致难以保证程序保真度和可预测性。
  2. Source Code Agent框架采用“蓝图先行,模型在后”的策略,将工作流逻辑与LLM解耦,提高确定性。
  3. 在tau-bench基准测试中,Source Code Agent的平均Pass^1得分超过最强基线10.1个百分点,效率显著提升。

📝 摘要(中文)

大型语言模型(LLM)Agent虽然强大,但其固有的不确定性限制了它们在结构化操作环境中的应用,因为这些环境对程序保真度和可预测的执行有严格的要求。这种限制源于当前架构将概率性的高层规划与低层动作执行混合在单一生成过程中。为了解决这个问题,我们引入了Source Code Agent框架,这是一种基于“蓝图先行,模型在后”理念的新范式。我们的框架将工作流逻辑与生成模型解耦。首先,将专家定义的操作程序编纂成基于源代码的执行蓝图,然后由确定性引擎执行。LLM被策略性地调用,作为一种专门的工具来处理工作流中有限的、复杂的子任务,但绝不决定工作流的路径。我们在具有挑战性的tau-bench基准上进行了全面的评估,该基准专为复杂的用户-工具-规则场景而设计。我们的结果表明,Source Code Agent建立了一个新的state-of-the-art,在平均Pass^1得分上优于最强的基线10.1个百分点,同时显著提高了执行效率。我们的工作使得在受严格程序逻辑约束的应用中,能够进行可验证和可靠的自主Agent部署。

🔬 方法详解

问题定义:现有LLM Agent在结构化操作环境中面临的主要问题是其固有的不确定性。这种不确定性源于LLM同时负责高层规划和低层动作执行,导致难以保证程序执行的可靠性和可预测性。现有方法难以满足对程序保真度有严格要求的应用场景的需求。

核心思路:本文的核心思路是将工作流逻辑与LLM的生成过程解耦。通过预先定义一个基于源代码的执行蓝图(Execution Blueprint),将专家知识和操作流程显式地编码到确定性的程序中。LLM不再负责整个工作流的决策,而是作为工具,仅用于处理蓝图中定义的、有限范围内的复杂子任务。

技术框架:Source Code Agent框架包含两个主要组成部分:执行蓝图(Execution Blueprint)和确定性执行引擎。执行蓝图使用类似源代码的结构化语言描述工作流的步骤、条件和规则。确定性执行引擎负责解析和执行执行蓝图,并在需要时调用LLM作为工具来完成特定的子任务。LLM的输出被限制在预定义的格式内,以确保其行为的可控性。

关键创新:最重要的创新在于将LLM从工作流的决策者转变为工具使用者。通过执行蓝图显式地定义工作流逻辑,避免了LLM的自由生成带来的不确定性。这种“蓝图先行,模型在后”的范式,使得Agent的行为更加可控、可预测和可验证。

关键设计:执行蓝图的设计是关键。它需要足够灵活,能够表达复杂的业务逻辑,同时又需要足够严格,以确保确定性执行。具体的技术细节包括:使用结构化的编程语言(例如Python的子集)来描述工作流;定义清晰的API接口,供LLM调用;以及设计严格的错误处理机制,以应对LLM可能产生的异常输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Source Code Agent在tau-bench基准测试中取得了显著的性能提升。在平均Pass^1得分上,Source Code Agent超过了最强的基线10.1个百分点,达到了新的state-of-the-art。此外,该框架还显著提高了执行效率,降低了计算成本。这些结果验证了“蓝图先行,模型在后”范式的有效性,并为LLM Agent在结构化环境中的应用提供了新的思路。

🎯 应用场景

该研究成果可应用于需要高度可靠性和可预测性的自动化流程中,例如金融交易、医疗诊断、法律咨询等领域。通过将业务逻辑编码到执行蓝图中,可以确保Agent的行为符合预定义的规则和流程,从而降低风险,提高效率。未来,该框架可以扩展到更复杂的场景,并与其他AI技术相结合,实现更智能、更可靠的自动化。

📄 摘要(原文)

While powerful, the inherent non-determinism of large language model (LLM) agents limits their application in structured operational environments where procedural fidelity and predictable execution are strict requirements. This limitation stems from current architectures that conflate probabilistic, high-level planning with low-level action execution within a single generative process. To address this, we introduce the Source Code Agent framework, a new paradigm built on the "Blueprint First, Model Second" philosophy. Our framework decouples the workflow logic from the generative model. An expert-defined operational procedure is first codified into a source code-based Execution Blueprint, which is then executed by a deterministic engine. The LLM is strategically invoked as a specialized tool to handle bounded, complex sub-tasks within the workflow, but never to decide the workflow's path. We conduct a comprehensive evaluation on the challenging tau-bench benchmark, designed for complex user-tool-rule scenarios. Our results demonstrate that the Source Code Agent establishes a new state-of-the-art, outperforming the strongest baseline by 10.1 percentage points on the average Pass^1 score while dramatically improving execution efficiency. Our work enables the verifiable and reliable deployment of autonomous agents in applications governed by strict procedural logic.