ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

📄 arXiv: 2409.01392v2 📥 PDF

作者: Xiangyuan Xue, Zeyu Lu, Di Huang, Zidong Wang, Wanli Ouyang, Lei Bai

分类: cs.CL, cs.AI, cs.CV

发布日期: 2024-09-02 (更新: 2024-11-26)


💡 一句话要点

提出ComfyBench评估LLM智能体在ComfyUI中自主设计协同AI系统的能力,并提出ComfyAgent框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 协同AI系统 LLM智能体 自主设计 ComfyUI 基准测试

📋 核心要点

  1. 现有AI研究侧重于开发单体模型以最大化智能,缺乏对自主设计协同AI系统的探索。
  2. ComfyAgent框架通过代码化工作流和多智能体协作,使LLM智能体能够自主设计协同AI系统。
  3. ComfyAgent在ComfyBench上表现优于其他智能体,但在创造性任务上的解决率仍有提升空间。

📝 摘要(中文)

本文旨在研究如何利用基于LLM的智能体自主设计协同AI系统。为此,作者首先提出了ComfyBench,这是一个综合性的基准测试,用于评估智能体在ComfyUI中设计协同AI系统的能力。ComfyBench包含200个不同的任务,涵盖各种指令跟随生成挑战,并带有3205个节点和20个工作流程的详细注释。基于ComfyBench,作者进一步开发了ComfyAgent,这是一个新颖的框架,它通过生成工作流程来使基于LLM的智能体能够自主设计协同AI系统。ComfyAgent基于两个核心概念:一是使用代码表示工作流程,这些代码可以可逆地转换为工作流程,并由解释器执行为协同系统;二是构建一个多智能体系统,该系统协同学习现有工作流程并为给定任务生成新的工作流程。实验结果表明,ComfyAgent在ComfyBench上实现了与o1-preview相当的解决率,并显著超过了其他智能体,但ComfyAgent仅解决了15%的创造性任务。基于LLM的智能体在自主设计协同AI系统方面还有很长的路要走。ComfyBench的进展为更智能和自主的协同AI系统铺平了道路。

🔬 方法详解

问题定义:论文旨在解决如何利用LLM自主设计协同AI系统的问题。现有方法主要集中于单体模型的性能提升,缺乏对多智能体协同设计复杂AI系统的有效方法和基准测试。现有方法难以应对复杂、创造性的AI系统设计任务。

核心思路:论文的核心思路是将AI系统的设计过程转化为LLM可理解和操作的代码形式,并通过多智能体协作的方式,利用LLM的推理和生成能力,自主地生成和优化AI系统的工作流程。这种方法允许LLM学习现有工作流程,并根据给定的任务创造新的工作流程。

技术框架:ComfyAgent框架包含以下主要模块:1) 工作流程代码化模块:将ComfyUI中的工作流程表示为代码,实现工作流程与代码之间的可逆转换。2) 多智能体协作模块:构建一个多智能体系统,每个智能体负责不同的任务,例如学习现有工作流程、生成新的工作流程、评估工作流程的性能等。3) 解释器模块:将生成的代码转换为可执行的工作流程,并在ComfyUI中运行。整体流程是,给定任务,多智能体系统学习现有工作流程,生成新的工作流程代码,解释器执行代码,评估结果,并反馈给智能体进行优化。

关键创新:论文的关键创新在于:1) 提出了ComfyBench基准测试,为评估LLM在协同AI系统设计方面的能力提供了标准。2) 提出了ComfyAgent框架,将AI系统设计问题转化为代码生成问题,并利用多智能体协作的方式解决该问题。3) 实现了工作流程与代码之间的可逆转换,使得LLM可以直接操作和优化AI系统的工作流程。

关键设计:ComfyAgent的关键设计包括:1) 工作流程代码化的具体实现方式,例如使用JSON或其他编程语言表示工作流程的节点和连接关系。2) 多智能体系统的具体架构和协作机制,例如使用强化学习或其他方法训练智能体。3) 解释器模块的具体实现方式,例如使用ComfyUI的API将代码转换为可执行的工作流程。论文中未明确说明损失函数和网络结构等技术细节,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

ComfyAgent在ComfyBench上取得了显著的性能提升,解决率与o1-preview相当,并显著优于其他智能体。尽管如此,ComfyAgent在创造性任务上的解决率仅为15%,表明LLM在自主设计协同AI系统方面仍有很大的提升空间。ComfyBench的发布为后续研究提供了标准化的评估平台。

🎯 应用场景

该研究成果可应用于自动化AI系统设计、定制化AI解决方案生成、以及教育领域,帮助用户快速构建和部署复杂的AI应用。例如,可以用于生成图像处理流程、自然语言处理流程等,降低AI应用开发的门槛,加速AI技术的普及。

📄 摘要(原文)

Much previous AI research has focused on developing monolithic models to maximize their intelligence, with the primary goal of enhancing performance on specific tasks. In contrast, this work attempts to study using LLM-based agents to design collaborative AI systems autonomously. To explore this problem, we first introduce ComfyBench to evaluate agents's ability to design collaborative AI systems in ComfyUI. ComfyBench is a comprehensive benchmark comprising 200 diverse tasks covering various instruction-following generation challenges, along with detailed annotations for 3,205 nodes and 20 workflows. Based on ComfyBench, we further develop ComfyAgent, a novel framework that empowers LLM-based agents to autonomously design collaborative AI systems by generating workflows. ComfyAgent is based on two core concepts. First, it represents workflows with code, which can be reversibly converted into workflows and executed as collaborative systems by the interpreter. Second, it constructs a multi-agent system that cooperates to learn from existing workflows and generate new workflows for a given task. While experimental results demonstrate that ComfyAgent achieves a comparable resolve rate to o1-preview and significantly surpasses other agents on ComfyBench, ComfyAgent has resolved only 15\% of creative tasks. LLM-based agents still have a long way to go in autonomously designing collaborative AI systems. Progress with ComfyBench is paving the way for more intelligent and autonomous collaborative AI systems.