WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

📄 arXiv: 2411.05451v1 📥 PDF

作者: Shengda Fan, Xin Cong, Yuepeng Fu, Zhong Zhang, Shuyan Zhang, Yuanwei Liu, Yesai Wu, Yankai Lin, Zhiyuan Liu, Maosong Sun

分类: cs.SE, cs.AI, cs.CL

发布日期: 2024-11-08

🔗 代码/项目: GITHUB


💡 一句话要点

WorkflowLLM:通过数据驱动增强大语言模型的工作流编排能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工作流编排 大语言模型 数据驱动 Agentic Process Automation Llama-3 WorkflowBench API泛化

📋 核心要点

  1. 现有大语言模型在工作流编排能力上存在不足,难以满足复杂自动化需求。
  2. WorkflowLLM通过构建大规模数据集WorkflowBench,并微调Llama-3.1-8B,提升模型工作流编排能力。
  3. 实验表明,WorkflowLlama在复杂工作流编排和API泛化方面表现出色,WorkflowBench具有良好的零样本泛化能力。

📝 摘要(中文)

本文提出了WorkflowLLM,一个以数据为中心的框架,旨在提升大语言模型(LLMs)在工作流编排方面的能力。现有LLMs,即使是先进的OpenAI GPT-4o,在工作流编排方面也存在局限性。为了解决这个问题,作者构建了一个大规模的微调数据集WorkflowBench,包含106,763个样本,覆盖了来自83个应用程序的1503个API,涉及28个类别。WorkflowBench的构建过程分为三个阶段:数据收集、查询扩展和工作流生成。基于WorkflowBench,作者对Llama-3.1-8B进行了微调,得到了WorkflowLlama。实验结果表明,WorkflowLlama在编排复杂工作流方面表现出强大的能力,并且在之前未见过的API上实现了显著的泛化性能。此外,WorkflowBench在零样本条件下,在任务规划数据集T-Eval上表现出强大的泛化能力。数据和代码已开源。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型在工作流编排能力上的不足,尤其是在处理复杂流程和未见过的API时的泛化能力。现有的方法难以有效地将自然语言指令转化为可执行的工作流,限制了Agentic Process Automation的发展。

核心思路:论文的核心思路是通过构建一个大规模、高质量的工作流数据集WorkflowBench,然后利用该数据集对大语言模型进行微调,从而提升模型的工作流编排能力。这种数据驱动的方法旨在让模型学习到更多的工作流模式和API使用方式,从而提高其泛化能力。

技术框架:WorkflowLLM的整体框架包括三个主要阶段:数据收集、查询扩展和工作流生成。首先,从Apple Shortcuts和RoutineHub等平台收集真实世界的工作流数据,并将其转换为Python风格的代码。然后,利用ChatGPT生成更多的任务查询,以增加工作流的多样性和复杂性。最后,训练一个标注模型,用于为合成的查询生成工作流。将质量确认后的合成样本与收集的样本合并,得到最终的WorkflowBench数据集。基于此数据集,对Llama-3.1-8B进行微调,得到WorkflowLlama。

关键创新:该论文的关键创新在于构建了大规模、高质量的WorkflowBench数据集,该数据集覆盖了广泛的API和工作流场景,为大语言模型的工作流编排能力提升提供了坚实的基础。此外,利用ChatGPT进行查询扩展和工作流生成,可以有效地增加数据集的多样性和规模。

关键设计:在数据收集阶段,将真实世界的工作流转换为Python风格的代码,方便模型理解和执行。在查询扩展阶段,利用ChatGPT生成多样化的任务查询,以增加工作流的复杂性。在工作流生成阶段,训练一个标注模型,用于为合成的查询生成工作流。对生成的工作流进行质量确认,确保数据集的质量。使用Llama-3.1-8B作为基础模型,并使用WorkflowBench数据集进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WorkflowLlama在编排复杂工作流方面表现出强大的能力,并且在之前未见过的API上实现了显著的泛化性能。此外,WorkflowBench在零样本条件下,在任务规划数据集T-Eval上表现出强大的泛化能力,证明了其良好的通用性。具体性能数据未知,但论文强调了显著的提升。

🎯 应用场景

WorkflowLLM具有广泛的应用前景,可以应用于智能家居控制、自动化办公、软件开发等领域。通过将自然语言指令转化为可执行的工作流,WorkflowLLM可以简化用户的操作流程,提高工作效率。未来,WorkflowLLM可以进一步扩展到更多的应用领域,例如智能制造、金融服务等,实现更高级别的自动化。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have driven a revolutionary paradigm shift in process automation from Robotic Process Automation to Agentic Process Automation by automating the workflow orchestration procedure based on LLMs. However, existing LLMs (even the advanced OpenAI GPT-4o) are confined to achieving satisfactory capability in workflow orchestration. To address this limitation, we present WorkflowLLM, a data-centric framework elaborately designed to enhance the capability of LLMs in workflow orchestration. It first constructs a large-scale fine-tuning dataset WorkflowBench with 106,763 samples, covering 1,503 APIs from 83 applications across 28 categories. Specifically, the construction process can be divided into three phases: (1) Data Collection: we collect real-world workflow data from Apple Shortcuts and RoutineHub, transcribing them into Python-style code. We further equip them with generated hierarchical thought via ChatGPT. (2) Query Expansion: we prompt ChatGPT to generate more task queries to enrich the diversity and complexity of workflows. (3) Workflow Generation: we leverage an annotator model trained on collected data to generate workflows for synthesized queries. Finally, we merge the synthetic samples that pass quality confirmation with the collected samples to obtain the WorkflowBench. Based on WorkflowBench, we fine-tune Llama-3.1-8B to obtain WorkflowLlama. Our experiments show that WorkflowLlama demonstrates a strong capacity to orchestrate complex workflows, while also achieving notable generalization performance on previously unseen APIs. Additionally, WorkflowBench exhibits robust zero-shot generalization capabilities on an out-of-distribution task planning dataset, T-Eval. Our data and code are available at https://github.com/OpenBMB/WorkflowLLM.