Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

作者: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang

分类: cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2026-04-21

备注: Work in progress

🔗 代码/项目: GITHUB

💡 一句话要点

提出Chat2Workflow基准，用于评估大语言模型生成可执行可视化工作流的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 可视化工作流 自然语言生成 大型语言模型 基准数据集 自动化 Agentic框架 错误修复

📋 核心要点

现有可视化工作流构建依赖手动工程，存在开发成本高、耗时且易出错等问题。
提出Chat2Workflow基准，旨在研究大型语言模型自动生成可执行可视化工作流的能力。
实验结果表明，现有语言模型在生成正确、稳定和可执行的工作流方面存在挑战，但提出的agentic框架可提升解决率。

📝 摘要（中文）

本文提出了Chat2Workflow，一个用于评估大语言模型（LLM）直接从自然语言生成可执行可视化工作流的基准。当前，可执行可视化工作流已成为工业部署的主流范式，具有很高的可靠性和可控性。然而，目前的工作流几乎完全通过手动工程构建，开发成本高、耗时且容易出错。Chat2Workflow基于大量真实业务工作流构建，每个实例都经过精心设计，以便生成的工作流可以转换并直接部署到Dify和Coze等实际工作流平台。实验结果表明，虽然最先进的语言模型通常可以捕捉到高层次的意图，但它们难以生成正确、稳定和可执行的工作流，尤其是在复杂或不断变化的需求下。尽管本文提出的agentic框架带来了高达5.34%的解决率提升，但与实际应用之间的差距仍然存在，Chat2Workflow为推进工业级自动化奠定了基础。代码已开源。

🔬 方法详解

问题定义：论文旨在解决如何利用大型语言模型（LLM）自动生成可执行的可视化工作流的问题。现有方法主要依赖人工设计和构建工作流，这导致了高昂的开发成本、漫长的开发周期以及容易出错。特别是在需求不断变化的情况下，手动调整工作流的逻辑变得非常繁琐。

核心思路：论文的核心思路是构建一个基准数据集，用于评估LLM在将自然语言描述转化为可执行可视化工作流方面的能力。同时，论文提出了一个agentic框架，旨在通过迭代优化来减少LLM生成工作流时出现的错误，从而提高工作流的正确性和稳定性。

技术框架：整体框架包含以下几个主要阶段：1) 自然语言输入：接收用户以自然语言描述的工作流需求。2) LLM生成：使用LLM将自然语言描述转化为可视化工作流的表示。3) 工作流执行：将生成的工作流在实际平台上（如Dify或Coze）执行。4) 错误检测与修复：检测执行过程中出现的错误，并利用agentic框架对工作流进行迭代优化。

关键创新：论文的关键创新在于提出了Chat2Workflow基准数据集，该数据集包含大量真实世界的业务工作流，并设计成可以直接部署到实际工作流平台。此外，提出的agentic框架通过迭代优化来提高LLM生成工作流的质量，这是一种解决LLM在复杂任务中表现不佳的有效方法。

关键设计：agentic框架的具体设计细节未知，但根据描述，它可能包含以下关键设计：1) 错误检测机制：用于识别工作流执行过程中出现的错误。2) 错误修复策略：基于错误类型，采用不同的策略来修改工作流，例如调整提示词、修改工作流结构等。3) 迭代优化机制：通过多次迭代执行和修复，逐步提高工作流的正确性和稳定性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的先进语言模型在生成正确、稳定和可执行的工作流方面面临挑战。提出的agentic框架能够提升工作流的解决率，最高可达5.34%。尽管如此，与实际应用的需求相比，仍然存在较大的差距，表明该领域仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于自动化工作流生成领域，降低企业构建和维护工作流的成本，提高开发效率。通过自然语言交互，用户可以更便捷地创建和修改工作流，从而加速业务流程的自动化。未来，该技术有望应用于更广泛的领域，例如智能客服、自动化报告生成等。

📄 摘要（原文）

At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理