EvoFlow: Evolving Diverse Agentic Workflows On The Fly

📄 arXiv: 2502.07373v1 📥 PDF

作者: Guibin Zhang, Kaijie Chen, Guancheng Wan, Heng Chang, Hong Cheng, Kun Wang, Shuyue Hu, Lei Bai

分类: cs.LG, cs.CL, cs.MA, cs.NE

发布日期: 2025-02-11


💡 一句话要点

EvoFlow:动态演化多样化Agent工作流,实现异构LLM协同。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 异构Agent 进化算法 工作流自动化 大型语言模型

📋 核心要点

  1. 现有Agent自动化流程缺乏LLM异构性,且侧重于单目标优化,限制了其结合弱模型以实现定制化和经济性的潜力。
  2. EvoFlow提出了一种基于小生境进化算法的框架,自动搜索异构且复杂度自适应的Agent工作流群体。
  3. 实验表明,EvoFlow演化的工作流具有多样性、高性能和经济性,在多个基准测试中优于现有方法。

📝 摘要(中文)

过去两年,基于大型语言模型(LLM)的多Agent系统经历了从劳动密集型的手动设计到部分自动化(例如,提示工程、通信拓扑),最终到完全自动化设计的演变。然而,现有的Agent自动化流程通常缺乏LLM异构性,并且侧重于单目标性能优化,限制了它们结合较弱模型以获得更定制化和经济高效的解决方案的潜力。为了解决这一挑战,我们提出了EvoFlow,一个基于小生境进化算法的框架,用于自动搜索异构和复杂度自适应的Agent工作流群体,而不是单一的同构、复杂的工作流。在技术上,EvoFlow执行(1)基于标签的检索,从Agent群体中提取父工作流;通过(2)交叉和(3)变异来演化新的工作流;并采用(4)基于小生境的选择来维持种群的多样性和质量。在七个基准上的广泛评估表明,EvoFlow是:(I)多样化的,演化出从简单的I/O任务到复杂的多轮交互的工作流群体;(II)高性能的,优于先前的手工和自动工作流1.23%~29.86%;(III)经济的,使用较弱的开源模型,以强大的o1-preview模型12.4%的推理成本超越了它。

🔬 方法详解

问题定义:现有基于LLM的Agent系统设计往往是同构的,即所有Agent使用相同的LLM,并且优化目标单一,忽略了不同LLM的能力差异和成本效益。这导致无法充分利用各种LLM的优势,也难以在性能和成本之间取得平衡。因此,需要一种能够自动设计异构Agent工作流的方法,以适应不同的任务需求和资源约束。

核心思路:EvoFlow的核心思路是利用进化算法来搜索最优的异构Agent工作流。通过模拟自然选择的过程,EvoFlow能够自动发现由不同LLM组成的Agent,并优化它们之间的交互方式,从而在性能、成本和多样性之间取得平衡。小生境技术被用于维持种群的多样性,避免算法过早收敛到局部最优解。

技术框架:EvoFlow的整体框架包含以下几个主要模块:1) 种群初始化:随机生成一组初始的Agent工作流,每个工作流由多个Agent组成,每个Agent可以选择不同的LLM。2) 基于标签的检索:根据任务需求,从种群中选择合适的父工作流进行交叉和变异。3) 交叉:将两个父工作流的部分结构进行交换,生成新的子工作流。4) 变异:对子工作流的结构或Agent的LLM进行随机修改。5) 评估:评估子工作流在目标任务上的性能和成本。6) 基于小生境的选择:根据性能、成本和多样性指标,选择优秀的子工作流加入新的种群,并淘汰较差的个体。

关键创新:EvoFlow的关键创新在于它能够自动设计异构Agent工作流,并利用小生境技术维持种群的多样性。与传统的同构Agent系统相比,EvoFlow能够更好地适应不同的任务需求和资源约束,从而在性能和成本之间取得更好的平衡。此外,EvoFlow还引入了基于标签的检索机制,能够更有效地利用已有的Agent工作流知识。

关键设计:EvoFlow的关键设计包括:1) Agent的表示:每个Agent由一个LLM和一个任务描述组成。LLM可以是不同的模型,例如GPT-3、GPT-J等。任务描述定义了Agent的功能和行为。2) 交叉和变异算子:交叉算子用于交换两个父工作流的部分结构,例如交换两个Agent的LLM或任务描述。变异算子用于对子工作流的结构或Agent的LLM进行随机修改,例如添加或删除Agent,或改变Agent的LLM。3) 小生境选择策略:采用基于拥挤度距离的小生境选择策略,以维持种群的多样性。4) 评估指标:采用性能和成本作为评估指标。性能可以通过任务完成的准确率或效率来衡量。成本可以通过LLM的推理时间或API调用次数来衡量。

🖼️ 关键图片

img_0

📊 实验亮点

EvoFlow在七个基准测试中取得了显著的性能提升,超越了先前的手工和自动工作流1.23%~29.86%。更重要的是,EvoFlow能够以强大的o1-preview模型12.4%的推理成本,使用较弱的开源模型超越它,展示了其在成本效益方面的巨大优势。实验结果表明,EvoFlow能够有效地搜索到高性能、低成本且多样化的Agent工作流。

🎯 应用场景

EvoFlow具有广泛的应用前景,可以应用于各种需要多Agent协作的场景,例如智能客服、自动化报告生成、软件开发等。通过自动设计异构Agent工作流,EvoFlow可以帮助用户更高效、更经济地解决复杂问题。未来,EvoFlow可以进一步扩展到支持更多的LLM和任务类型,并与其他自动化工具集成,从而构建更加智能化的Agent系统。

📄 摘要(原文)

The past two years have witnessed the evolution of large language model (LLM)-based multi-agent systems from labor-intensive manual design to partial automation (\textit{e.g.}, prompt engineering, communication topology) and eventually to fully automated design. However, existing agentic automation pipelines often lack LLM heterogeneity and focus on single-objective performance optimization, limiting their potential to combine weaker models for more customized and cost-effective solutions. To address this challenge, we propose EvoFlow, a niching evolutionary algorithm-based framework to automatically search a population of heterogeneous and complexity-adaptive agentic workflows, rather than a single homogeneous, complex workflow. Technically, EvoFlow performs \textit{(1) tag-based retrieval} to extract parent workflows from an agentic population, evolves new workflows through \textit{(2) crossover} and \textit{(3) mutation}, and employs \textit{(4) niching-based selection} to maintain population diversity and quality. Extensive evaluations across seven benchmarks demonstrate that EvoFlow is: \textbf{(I) diverse}, evolving a population of workflows ranging from simple I/O tasks to complex multi-turn interactions; \textbf{(II) high-performing}, outperforming previous handcrafted and automated workflows by $1.23\%\sim29.86\%$; \textbf{(III) economical}, surpassing powerful \llmname{o1-preview} at $12.4\%$ of its inference cost using weaker open-source models.