AFlow: Automating Agentic Workflow Generation
作者: Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xionghui Chen, Jiaqi Chen, Mingchen Zhuge, Xin Cheng, Sirui Hong, Jinlin Wang, Bingnan Zheng, Bang Liu, Yuyu Luo, Chenglin Wu
分类: cs.AI, cs.CL, cs.LG, cs.SE
发布日期: 2024-10-14 (更新: 2025-04-15)
🔗 代码/项目: GITHUB
💡 一句话要点
AFlow:自动化Agentic工作流生成框架,提升LLM复杂任务解决能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic工作流 自动化生成 蒙特卡洛树搜索 大型语言模型 代码空间搜索
📋 核心要点
- 现有Agentic工作流构建依赖大量人工,限制了可扩展性和通用性,自动化生成与优化面临挑战。
- AFlow将工作流优化视为代码空间搜索问题,利用蒙特卡洛树搜索迭代改进工作流。
- 实验表明,AFlow在多个数据集上优于现有方法,并能使小模型以更低成本超越GPT-4o。
📝 摘要(中文)
大型语言模型(LLMs)在解决复杂任务方面展现了卓越的潜力,通常通过遵循详细指令和操作序列的agentic工作流来实现。然而,构建这些工作流需要大量的人工投入,限制了其可扩展性和通用性。最近的研究试图自动化生成和优化这些工作流,但现有方法仍然依赖于初始的人工设置,并且未能实现完全自动化和有效的工作流生成。为了解决这一挑战,我们将工作流优化重新定义为在代码表示的工作流上的搜索问题,其中LLM调用节点通过边连接。我们引入了AFlow,一个自动化框架,它使用蒙特卡洛树搜索有效地探索这个空间,通过代码修改、树状结构的经验和执行反馈迭代地改进工作流。在六个基准数据集上的实证评估表明了AFlow的有效性,与最先进的基线相比,平均提高了5.7%。此外,AFlow使较小的模型能够在特定任务上优于GPT-4o,且推理成本仅为其4.55%。代码已开源。
🔬 方法详解
问题定义:现有Agentic工作流的构建和优化严重依赖人工,这使得它们难以扩展到更复杂的问题和更广泛的应用领域。现有的自动化方法通常需要人工进行初始设置,并且在工作流的有效性和效率方面存在局限性。因此,如何实现完全自动化且高效的工作流生成是一个关键问题。
核心思路:AFlow的核心思路是将Agentic工作流的优化过程视为一个在代码表示的工作流空间中的搜索问题。通过将工作流表示为由LLM调用节点和连接它们的边组成的代码结构,AFlow能够利用代码修改和执行反馈来迭代地改进工作流。这种方法允许AFlow自动探索不同的工作流结构,并找到最优的解决方案。
技术框架:AFlow的整体框架基于蒙特卡洛树搜索(MCTS)。它包含以下主要模块:1) 工作流表示:将Agentic工作流表示为代码结构,其中节点代表LLM调用,边代表数据流。2) 搜索策略:使用MCTS来探索工作流空间,选择最有希望的节点进行扩展。3) 代码修改:通过代码修改操作(例如添加、删除或修改节点和边)来生成新的工作流。4) 执行反馈:执行生成的工作流,并根据执行结果评估其性能。5) 经验积累:将搜索过程中的经验存储在树状结构中,用于指导后续的搜索。
关键创新:AFlow最重要的技术创新点在于其将工作流优化问题转化为代码空间搜索问题,并利用MCTS进行高效的搜索。与现有方法相比,AFlow无需人工进行初始设置,能够完全自动化地生成和优化工作流。此外,AFlow通过代码修改和执行反馈来迭代地改进工作流,从而能够找到更优的解决方案。
关键设计:AFlow的关键设计包括:1) 代码修改操作的设计,需要保证生成的工作流在语法上和语义上都是有效的。2) MCTS的奖励函数的设计,需要能够准确地评估工作流的性能。3) 经验积累策略的设计,需要能够有效地利用历史搜索经验来指导后续的搜索。具体的参数设置和损失函数等细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AFlow在六个基准数据集上进行了评估,结果表明其性能优于现有的最先进基线,平均提升了5.7%。更重要的是,AFlow能够使较小的模型在特定任务上超越GPT-4o,且推理成本仅为其4.55%。这些结果表明AFlow在自动化Agentic工作流生成方面具有显著的优势。
🎯 应用场景
AFlow具有广泛的应用前景,可以应用于各种需要复杂任务解决的领域,例如软件开发、数据分析、科学研究等。通过自动化生成和优化Agentic工作流,AFlow可以显著提高工作效率,降低人工成本,并促进LLM在更多领域的应用。未来,AFlow可以进一步扩展到支持更复杂的任务和更灵活的工作流结构。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow's efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code is available at https://github.com/FoundationAgents/AFlow.