MLZero: A Multi-Agent System for End-to-end Machine Learning Automation

📄 arXiv: 2505.13941v1 📥 PDF

作者: Haoyang Fang, Boran Han, Nick Erickson, Xiyuan Zhang, Su Zhou, Anirudh Dagar, Jiani Zhang, Ali Caner Turkmen, Cuixiong Hu, Huzefa Rangwala, Ying Nian Wu, Bernie Wang, George Karypis

分类: cs.MA, cs.AI, cs.CL, cs.LG

发布日期: 2025-05-20


💡 一句话要点

MLZero:基于LLM的多智能体系统,实现端到端多模态机器学习自动化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AutoML 多模态学习 大型语言模型 多智能体系统 端到端学习 代码生成 机器学习自动化

📋 核心要点

  1. 现有AutoML系统在自动化机器学习方面取得了进展,但处理多模态数据时仍需大量人工配置和专家输入。
  2. MLZero利用LLM驱动的多智能体框架,通过认知感知、语义和情景记忆增强代码生成,实现端到端多模态机器学习自动化。
  3. 实验表明,MLZero在MLE-Bench Lite和多模态AutoML Agent Benchmark上均显著优于现有方法,即使使用较小的LLM也能取得优异性能。

📝 摘要(中文)

本文提出了一种名为MLZero的新型多智能体框架,该框架由大型语言模型(LLM)驱动,旨在实现跨多种数据模态的端到端机器学习自动化,并最大限度地减少人工干预。该框架首先采用认知感知模块,将原始多模态输入转换为感知上下文,从而有效地指导后续工作流程。为了解决LLM的关键局限性,例如幻觉代码生成和过时的API知识,本文通过语义和情景记忆增强了迭代代码生成过程。MLZero在MLE-Bench Lite上表现出卓越的性能,在成功率和解决方案质量方面均优于所有竞争对手,获得了六枚金牌。此外,在包含25个更具挑战性的任务(涵盖各种数据模态)的多模态AutoML Agent Benchmark上进行评估时,MLZero的成功率为0.92(+263.6%),平均排名为2.28,大幅优于竞争方法。即使使用紧凑的8B LLM,该方法也能保持强大的有效性,优于现有解决方案中的完整系统。

🔬 方法详解

问题定义:现有AutoML系统在处理多模态数据时,需要大量的人工配置和专家知识,限制了其易用性和泛化能力。LLM在代码生成方面存在幻觉问题,并且对最新的API知识掌握不足,导致生成的代码可能无法运行或效率低下。

核心思路:MLZero的核心思路是利用多智能体系统,每个智能体负责不同的任务,并通过LLM进行协调。通过引入认知感知模块,将原始多模态数据转化为统一的感知上下文,从而简化后续处理流程。同时,利用语义和情景记忆来增强LLM的代码生成能力,减少幻觉并提高代码质量。

技术框架:MLZero包含以下主要模块:1) 认知感知模块:将原始多模态数据转换为感知上下文。2) 多智能体系统:包含多个智能体,分别负责数据预处理、特征工程、模型选择、超参数优化等任务。3) LLM驱动的代码生成器:根据感知上下文和智能体的需求生成代码。4) 语义记忆:存储常用的代码片段和API信息,供LLM参考。5) 情景记忆:记录历史任务的执行过程和结果,用于指导LLM的决策。

关键创新:MLZero的关键创新在于:1) 端到端自动化:无需人工干预,即可完成整个机器学习流程。2) 多模态数据处理:能够处理各种类型的数据,包括图像、文本、音频等。3) 基于LLM的代码生成:利用LLM自动生成代码,减少了人工编写代码的工作量。4) 语义和情景记忆增强:通过语义和情景记忆来提高LLM的代码生成质量。

关键设计:认知感知模块的具体实现方式未知,可能涉及预训练模型或手工设计的特征提取器。多智能体系统的具体智能体数量和功能分配未知。LLM的选择和微调策略未知。语义记忆和情景记忆的具体存储格式和检索方式未知。代码生成器的prompt设计和解码策略未知。

🖼️ 关键图片

img_0

📊 实验亮点

MLZero在MLE-Bench Lite上超越所有竞争对手,获得六枚金牌,证明了其在通用机器学习任务上的卓越性能。在更具挑战性的多模态AutoML Agent Benchmark上,MLZero的成功率达到0.92,比现有方法提高了263.6%,平均排名为2.28,表明其在处理复杂多模态数据方面的强大能力。值得注意的是,即使使用8B的紧凑型LLM,MLZero也能超越现有解决方案中的完整系统。

🎯 应用场景

MLZero具有广泛的应用前景,可以应用于各种需要自动化机器学习的领域,例如:自动驾驶、智能医疗、金融风控、智能推荐等。它可以帮助企业和研究机构快速构建机器学习模型,降低开发成本,提高效率。未来,MLZero有望成为一种通用的AutoML解决方案,推动人工智能技术的普及。

📄 摘要(原文)

Existing AutoML systems have advanced the automation of machine learning (ML); however, they still require substantial manual configuration and expert input, particularly when handling multimodal data. We introduce MLZero, a novel multi-agent framework powered by Large Language Models (LLMs) that enables end-to-end ML automation across diverse data modalities with minimal human intervention. A cognitive perception module is first employed, transforming raw multimodal inputs into perceptual context that effectively guides the subsequent workflow. To address key limitations of LLMs, such as hallucinated code generation and outdated API knowledge, we enhance the iterative code generation process with semantic and episodic memory. MLZero demonstrates superior performance on MLE-Bench Lite, outperforming all competitors in both success rate and solution quality, securing six gold medals. Additionally, when evaluated on our Multimodal AutoML Agent Benchmark, which includes 25 more challenging tasks spanning diverse data modalities, MLZero outperforms the competing methods by a large margin with a success rate of 0.92 (+263.6\%) and an average rank of 2.28. Our approach maintains its robust effectiveness even with a compact 8B LLM, outperforming full-size systems from existing solutions.