BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

作者: Shubham Gandhi, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff

分类: cs.MA, cs.AI, cs.CL, cs.LG

发布日期: 2024-11-12 (更新: 2025-01-08)

备注: Presented at AIMLSystems '24

💡 一句话要点

提出BudgetMLAgent，一种低成本LLM多智能体系统，用于自动化机器学习任务。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 机器学习自动化 成本效益 LLM级联 专家咨询 MLAgentBench

📋 核心要点

现有基于LLM的ML任务自动化方法依赖于昂贵的大模型，成本高昂，而低成本模型效果不佳。
BudgetMLAgent利用多智能体系统，结合低成本LLM和GPT-4等大模型，通过级联和专家咨询实现成本效益。
实验表明，BudgetMLAgent在MLAgentBench上以显著降低的成本（94.2%）实现了更高的成功率（32.95% vs 22.72%）。

📝 摘要（中文）

大型语言模型（LLMs）在各种应用中表现出色，包括生成代码片段，但通常难以生成用于复杂机器学习（ML）任务的代码。现有的基于LLM单智能体的系统，其性能因任务复杂性而异，并且纯粹依赖于更大且昂贵的模型，如GPT-4。我们的研究表明，像Gemini-Pro、Mixtral和CodeLlama这样的无成本和低成本模型在单智能体设置中的表现远不如GPT-4。为了开发一种经济高效的基于LLM的解决方案来解决ML任务，我们提出了一种基于LLM多智能体的系统，该系统利用专家组合，包括分析、高效检索过去观察结果、LLM级联和专家咨询。通过在MLAgentBench基准测试中的ML工程任务上的实证分析，我们证明了我们系统的有效性，该系统使用无成本模型（即Gemini作为基础LLM），并与GPT-4级联和专家配合，以进行偶尔的规划专家咨询。成本降低了94.2%（从GPT-4单智能体系统在所有任务上的平均每次运行成本0.931美元降至0.054美元），我们的系统能够产生更好的平均成功率32.95%，而GPT-4单智能体系统在MLAgentBench的所有任务上的平均成功率为22.72%。

🔬 方法详解

问题定义：论文旨在解决使用大型语言模型（LLM）自动化机器学习（ML）任务时，现有方法成本高昂的问题。现有方法主要依赖于如GPT-4等大型且昂贵的模型，而低成本模型在单智能体设置下表现不佳，无法满足实际应用的需求。因此，如何以更低的成本实现高效的ML任务自动化是本研究要解决的核心问题。

核心思路：论文的核心思路是利用多智能体系统，将低成本的LLM（如Gemini）作为基础模型，并结合GPT-4等大型模型，通过级联和专家咨询的方式，在保证性能的同时显著降低成本。这种方法旨在充分利用不同模型的优势，实现成本效益的最大化。

技术框架：BudgetMLAgent的技术框架主要包括以下几个模块：1) 分析模块：用于分析ML任务的需求和特点。2) 检索模块：用于高效检索过去相关的观察结果。3) LLM级联模块：将低成本LLM和GPT-4等大型模型进行级联，优先使用低成本模型，必要时调用大型模型。4) 专家咨询模块：在遇到复杂问题时，向GPT-4等专家模型进行咨询。整体流程是，首先使用分析模块理解任务，然后检索相关信息，接着通过LLM级联生成代码，最后在必要时进行专家咨询。

关键创新：该论文的关键创新在于提出了一个低成本的LLM多智能体系统，该系统通过结合低成本LLM和GPT-4等大型模型，实现了在保证性能的同时显著降低成本。与现有方法相比，该系统不再完全依赖于昂贵的大模型，而是充分利用了不同模型的优势，实现了成本效益的最大化。此外，LLM级联和专家咨询机制也是该系统的创新点，能够有效地解决复杂ML任务。

关键设计：论文中关于关键设计的描述相对较少，更多集中在整体架构和流程上。但可以推断，LLM级联的触发条件（何时从低成本模型切换到GPT-4）、专家咨询的触发条件（何时需要专家介入）以及知识检索的策略是关键的设计细节。具体的参数设置、损失函数和网络结构等细节未在摘要中提及，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BudgetMLAgent在MLAgentBench基准测试中，以94.2%的成本降低实现了更高的平均成功率（32.95%），而GPT-4单智能体系统的平均成功率为22.72%。这表明BudgetMLAgent在成本效益方面具有显著优势，能够在保证性能的同时显著降低成本。

🎯 应用场景

BudgetMLAgent具有广泛的应用前景，可用于自动化各种机器学习任务，例如数据预处理、模型选择、超参数优化和模型部署等。该系统可以帮助企业和研究机构降低机器学习的成本，提高效率，并加速机器学习的应用。未来，该系统可以进一步扩展到其他领域，例如自然语言处理、计算机视觉和机器人等。

📄 摘要（原文）

Large Language Models (LLMs) excel in diverse applications including generation of code snippets, but often struggle with generating code for complex Machine Learning (ML) tasks. Although existing LLM single-agent based systems give varying performance depending on the task complexity, they purely rely on larger and expensive models such as GPT-4. Our investigation reveals that no-cost and low-cost models such as Gemini-Pro, Mixtral and CodeLlama perform far worse than GPT-4 in a single-agent setting. With the motivation of developing a cost-efficient LLM based solution for solving ML tasks, we propose an LLM Multi-Agent based system which leverages combination of experts using profiling, efficient retrieval of past observations, LLM cascades, and ask-the-expert calls. Through empirical analysis on ML engineering tasks in the MLAgentBench benchmark, we demonstrate the effectiveness of our system, using no-cost models, namely Gemini as the base LLM, paired with GPT-4 in cascade and expert to serve occasional ask-the-expert calls for planning. With 94.2\% reduction in the cost (from \$0.931 per run cost averaged over all tasks for GPT-4 single agent system to \$0.054), our system is able to yield better average success rate of 32.95\% as compared to GPT-4 single-agent system yielding 22.72\% success rate averaged over all the tasks of MLAgentBench.

BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理