GNNs as Predictors of Agentic Workflow Performances
作者: Yuanshuo Zhang, Yuchen Hou, Bohan Tang, Shuo Chen, Muhan Zhang, Xiaowen Dong, Siheng Chen
分类: cs.CL, cs.MA
发布日期: 2025-03-14
备注: 15 pages, 11 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出FLORA-Bench,利用GNN预测Agentic Workflow性能,优化LLM调用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 Agentic Workflow 性能预测 大型语言模型 自动化优化
📋 核心要点
- Agentic Workflow优化成本高昂,重复调用LLM效率低下,亟需高效的性能预测方法。
- 将Agentic Workflow建模为计算图,利用GNN学习图结构与性能间的关系,实现快速预测。
- 构建FLORA-Bench平台,实验表明GNN能有效预测Agentic Workflow性能,为自动化优化提供可能。
📝 摘要(中文)
本文提出使用图神经网络(GNNs)作为Agentic Workflow性能的有效预测器,以避免重复调用大型语言模型(LLMs)进行评估,从而优化Agentic Workflow。为了验证这一观点,作者构建了一个统一的平台FLORA-Bench,用于评估GNN预测Agentic Workflow性能的能力。通过大量的实验,得出结论:GNNs是简单而有效的预测器。这一结论支持了GNNs的新应用,并为自动化Agentic Workflow优化提供了一个新的方向。所有代码、模型和数据均可在https://github.com/youngsoul0731/Flora-Bench获取。
🔬 方法详解
问题定义:Agentic Workflow在处理复杂任务时表现出色,但其优化过程依赖于大量LLM调用,成本高昂且效率低下。现有方法缺乏一种高效的性能预测机制,难以在实际应用中快速评估和优化Workflow。
核心思路:本文的核心思路是将Agentic Workflow视为计算图,图中的节点代表Agent,边代表Agent之间的依赖关系和数据流。通过学习图结构与Workflow性能之间的关系,可以利用GNN预测Workflow的性能,从而避免重复调用LLM进行评估。这种方法旨在降低优化成本,提高效率。
技术框架:FLORA-Bench平台包含以下主要模块:1) Agentic Workflow构建模块:用于定义和构建不同的Agentic Workflow;2) 图表示模块:将Workflow转化为计算图;3) GNN模型模块:包含多种GNN模型,用于学习图结构与性能之间的关系;4) 性能预测模块:利用训练好的GNN模型预测Workflow的性能;5) 评估模块:评估GNN预测的准确性。
关键创新:本文的关键创新在于将GNN应用于Agentic Workflow性能预测,这是一种全新的应用场景。与传统的基于LLM评估的方法相比,GNN预测速度更快,成本更低。此外,FLORA-Bench平台的构建为GNN在该领域的应用提供了统一的基准和评估标准。
关键设计:GNN模型选择方面,可以尝试不同的GNN架构,如GCN、GAT等,并根据Workflow图的特点进行调整。损失函数可以选择均方误差(MSE)或平均绝对误差(MAE),用于衡量预测性能与实际性能之间的差距。图表示方面,可以考虑节点特征的选取,例如Agent的类型、输入输出数据的特征等,以及边特征的选取,例如数据流的大小、依赖关系的强度等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GNN能够有效地预测Agentic Workflow的性能。在FLORA-Bench平台上,GNN模型在多个Workflow数据集上取得了良好的预测精度,与传统的基于LLM评估的方法相比,GNN预测速度更快,成本更低。具体性能数据和对比基线可在论文和开源代码中找到。
🎯 应用场景
该研究成果可应用于自动化Agentic Workflow优化、Agent选择与调度、以及Workflow设计等领域。通过GNN预测性能,可以快速评估不同Workflow配置的优劣,从而指导Workflow的自动优化。此外,该方法还可以用于Agent的选择和调度,以及Workflow的设计,提高Agentic Workflow的效率和性能。
📄 摘要(原文)
Agentic workflows invoked by Large Language Models (LLMs) have achieved remarkable success in handling complex tasks. However, optimizing such workflows is costly and inefficient in real-world applications due to extensive invocations of LLMs. To fill this gap, this position paper formulates agentic workflows as computational graphs and advocates Graph Neural Networks (GNNs) as efficient predictors of agentic workflow performances, avoiding repeated LLM invocations for evaluation. To empirically ground this position, we construct FLORA-Bench, a unified platform for benchmarking GNNs for predicting agentic workflow performances. With extensive experiments, we arrive at the following conclusion: GNNs are simple yet effective predictors. This conclusion supports new applications of GNNs and a novel direction towards automating agentic workflow optimization. All codes, models, and data are available at https://github.com/youngsoul0731/Flora-Bench.