BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

📄 arXiv: 2411.07464v2 📥 PDF

作者: Shubham Gandhi, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff

分类: cs.MA, cs.AI, cs.CL, cs.LG

发布日期: 2024-11-12 (更新: 2025-01-08)

备注: Presented at AIMLSystems '24


💡 一句话要点

提出BudgetMLAgent,一种低成本LLM多智能体系统,用于自动化机器学习任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 机器学习自动化 成本效益 LLM级联 专家咨询 MLAgentBench

📋 核心要点

  1. 现有基于LLM的ML任务自动化方法依赖于昂贵的大模型,成本高昂,而低成本模型效果不佳。
  2. BudgetMLAgent利用多智能体系统,结合低成本LLM和GPT-4等大模型,通过级联和专家咨询实现成本效益。
  3. 实验表明,BudgetMLAgent在MLAgentBench上以显著降低的成本(94.2%)实现了更高的成功率(32.95% vs 22.72%)。

📝 摘要(中文)

大型语言模型(LLMs)在各种应用中表现出色,包括生成代码片段,但通常难以生成用于复杂机器学习(ML)任务的代码。现有的基于LLM单智能体的系统,其性能因任务复杂性而异,并且纯粹依赖于更大且昂贵的模型,如GPT-4。我们的研究表明,像Gemini-Pro、Mixtral和CodeLlama这样的无成本和低成本模型在单智能体设置中的表现远不如GPT-4。为了开发一种经济高效的基于LLM的解决方案来解决ML任务,我们提出了一种基于LLM多智能体的系统,该系统利用专家组合,包括分析、高效检索过去观察结果、LLM级联和专家咨询。通过在MLAgentBench基准测试中的ML工程任务上的实证分析,我们证明了我们系统的有效性,该系统使用无成本模型(即Gemini作为基础LLM),并与GPT-4级联和专家配合,以进行偶尔的规划专家咨询。成本降低了94.2%(从GPT-4单智能体系统在所有任务上的平均每次运行成本0.931美元降至0.054美元),我们的系统能够产生更好的平均成功率32.95%,而GPT-4单智能体系统在MLAgentBench的所有任务上的平均成功率为22.72%。

🔬 方法详解

问题定义:论文旨在解决使用大型语言模型(LLM)自动化机器学习(ML)任务时,现有方法成本高昂的问题。现有方法主要依赖于如GPT-4等大型且昂贵的模型,而低成本模型在单智能体设置下表现不佳,无法满足实际应用的需求。因此,如何以更低的成本实现高效的ML任务自动化是本研究要解决的核心问题。

核心思路:论文的核心思路是利用多智能体系统,将低成本的LLM(如Gemini)作为基础模型,并结合GPT-4等大型模型,通过级联和专家咨询的方式,在保证性能的同时显著降低成本。这种方法旨在充分利用不同模型的优势,实现成本效益的最大化。

技术框架:BudgetMLAgent的技术框架主要包括以下几个模块:1) 分析模块:用于分析ML任务的需求和特点。2) 检索模块:用于高效检索过去相关的观察结果。3) LLM级联模块:将低成本LLM和GPT-4等大型模型进行级联,优先使用低成本模型,必要时调用大型模型。4) 专家咨询模块:在遇到复杂问题时,向GPT-4等专家模型进行咨询。整体流程是,首先使用分析模块理解任务,然后检索相关信息,接着通过LLM级联生成代码,最后在必要时进行专家咨询。

关键创新:该论文的关键创新在于提出了一个低成本的LLM多智能体系统,该系统通过结合低成本LLM和GPT-4等大型模型,实现了在保证性能的同时显著降低成本。与现有方法相比,该系统不再完全依赖于昂贵的大模型,而是充分利用了不同模型的优势,实现了成本效益的最大化。此外,LLM级联和专家咨询机制也是该系统的创新点,能够有效地解决复杂ML任务。

关键设计:论文中关于关键设计的描述相对较少,更多集中在整体架构和流程上。但可以推断,LLM级联的触发条件(何时从低成本模型切换到GPT-4)、专家咨询的触发条件(何时需要专家介入)以及知识检索的策略是关键的设计细节。具体的参数设置、损失函数和网络结构等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,BudgetMLAgent在MLAgentBench基准测试中,以94.2%的成本降低实现了更高的平均成功率(32.95%),而GPT-4单智能体系统的平均成功率为22.72%。这表明BudgetMLAgent在成本效益方面具有显著优势,能够在保证性能的同时显著降低成本。

🎯 应用场景

BudgetMLAgent具有广泛的应用前景,可用于自动化各种机器学习任务,例如数据预处理、模型选择、超参数优化和模型部署等。该系统可以帮助企业和研究机构降低机器学习的成本,提高效率,并加速机器学习的应用。未来,该系统可以进一步扩展到其他领域,例如自然语言处理、计算机视觉和机器人等。

📄 摘要(原文)

Large Language Models (LLMs) excel in diverse applications including generation of code snippets, but often struggle with generating code for complex Machine Learning (ML) tasks. Although existing LLM single-agent based systems give varying performance depending on the task complexity, they purely rely on larger and expensive models such as GPT-4. Our investigation reveals that no-cost and low-cost models such as Gemini-Pro, Mixtral and CodeLlama perform far worse than GPT-4 in a single-agent setting. With the motivation of developing a cost-efficient LLM based solution for solving ML tasks, we propose an LLM Multi-Agent based system which leverages combination of experts using profiling, efficient retrieval of past observations, LLM cascades, and ask-the-expert calls. Through empirical analysis on ML engineering tasks in the MLAgentBench benchmark, we demonstrate the effectiveness of our system, using no-cost models, namely Gemini as the base LLM, paired with GPT-4 in cascade and expert to serve occasional ask-the-expert calls for planning. With 94.2\% reduction in the cost (from \$0.931 per run cost averaged over all tasks for GPT-4 single agent system to \$0.054), our system is able to yield better average success rate of 32.95\% as compared to GPT-4 single-agent system yielding 22.72\% success rate averaged over all the tasks of MLAgentBench.