Benchmarking Agentic Workflow Generation
作者: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
分类: cs.CL, cs.AI, cs.HC, cs.LG, cs.MA
发布日期: 2024-10-10 (更新: 2025-02-23)
备注: ICLR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出WorfBench基准测试,评估LLM在复杂工作流生成中的能力,揭示序列与图规划能力差距。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工作流生成 基准测试 图规划 序列规划 智能体评估 子图匹配
📋 核心要点
- 现有工作流评估框架在场景覆盖、工作流复杂度和评估标准上存在局限性,难以全面评估LLM的工作流生成能力。
- 论文提出WorfBench基准测试和WorfEval评估协议,利用子序列和子图匹配算法,量化LLM在复杂图结构工作流生成中的能力。
- 实验表明,LLM在序列规划和图规划能力上存在差距,即使是GPT-4也存在约15%的差距,且生成的工作流能提升下游任务性能。
📝 摘要(中文)
大型语言模型(LLMs)在处理广泛任务方面表现出色,推动了推理和规划任务的显著进步,其中将复杂问题分解为可执行的工作流是关键步骤。现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖范围有限、工作流结构过于简单以及评估标准宽松等局限性。为此,我们推出了WorfBench,这是一个统一的工作流生成基准,具有多方面的场景和复杂的图工作流结构。此外,我们提出了WorfEval,一种利用子序列和子图匹配算法来准确量化LLM智能体工作流生成能力的系统评估协议。通过对不同类型LLM的全面评估,我们发现LLM智能体的序列规划能力和图规划能力之间存在明显差距,即使是GPT-4也存在约15%的差距。我们还训练了两个开源模型,并评估了它们在预留任务上的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使其能够在推理过程中以更少的时间实现卓越的性能。
🔬 方法详解
问题定义:论文旨在解决现有工作流评估框架的不足,这些框架无法充分评估LLM在复杂场景和复杂图结构工作流生成方面的能力。现有方法要么只关注整体性能,要么在场景覆盖范围、工作流结构复杂性和评估标准方面存在局限性,无法准确反映LLM的真实工作流生成能力。
核心思路:论文的核心思路是构建一个更全面、更复杂的基准测试WorfBench,并设计一个更严格的评估协议WorfEval。WorfBench包含多方面的场景和复杂的图工作流结构,WorfEval利用子序列和子图匹配算法来准确量化LLM智能体的工作流生成能力。通过这样的设计,可以更准确地评估LLM在复杂工作流生成方面的能力,并发现其在序列规划和图规划能力上的差距。
技术框架:整体框架包含两个主要部分:WorfBench基准测试和WorfEval评估协议。WorfBench提供多方面的场景和复杂的图工作流结构,作为LLM生成工作流的任务输入。WorfEval则利用子序列和子图匹配算法,将LLM生成的工作流与标准答案进行比较,从而量化LLM的工作流生成能力。整个流程旨在模拟真实世界中复杂问题的解决过程,并评估LLM在其中的表现。
关键创新:论文的关键创新在于提出了WorfBench和WorfEval,它们共同构成了一个更全面、更严格的工作流生成评估体系。WorfBench通过引入多方面的场景和复杂的图工作流结构,提高了评估的难度和真实性。WorfEval通过使用子序列和子图匹配算法,提高了评估的准确性和可靠性。与现有方法相比,该体系能够更准确地反映LLM在复杂工作流生成方面的能力。
关键设计:WorfBench的关键设计在于其多方面的场景和复杂的图工作流结构。这些场景涵盖了各种不同的任务类型和领域,而图工作流结构则允许更复杂的任务分解和执行流程。WorfEval的关键设计在于其子序列和子图匹配算法,这些算法能够有效地比较LLM生成的工作流与标准答案,并量化其相似度和准确性。具体的参数设置和算法细节在论文的补充材料中可能有所描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在序列规划和图规划能力上存在明显差距,即使是GPT-4也存在约15%的差距。此外,通过使用生成的工作流,下游任务能够在推理过程中以更少的时间实现卓越的性能。论文还训练了两个开源模型,并评估了它们在预留任务上的泛化能力,为后续研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于评估和改进LLM在自动化任务规划、智能助手、机器人控制等领域的应用。通过WorfBench和WorfEval,可以更准确地了解LLM在复杂工作流生成方面的能力,从而指导LLM的训练和优化,提升其在实际应用中的性能和可靠性。未来,该研究可以扩展到更多领域,例如软件工程、生物信息学等。
📄 摘要(原文)
Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorfBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorfEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset are available at https://github.com/zjunlp/WorfBench.