ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

📄 arXiv: 2505.23723v1 📥 PDF

作者: Zexi Liu, Jingyi Chai, Xinyu Zhu, Shuo Tang, Rui Ye, Bo Zhang, Lei Bai, Siheng Chen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-29


💡 一句话要点

提出基于强化学习的LLM智能体ML-Agent,实现自主机器学习工程

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主机器学习 强化学习 大型语言模型 智能体 在线学习

📋 核心要点

  1. 现有基于LLM的ML智能体依赖人工prompt工程,缺乏基于实验经验的自适应优化能力。
  2. 提出基于强化学习的LLM智能体ML-Agent,通过交互式实验和在线强化学习进行自主学习。
  3. ML-Agent在少量ML任务上训练后,性能超越了更大的模型,并展现出良好的泛化能力。

📝 摘要(中文)

基于大型语言模型(LLM)的智能体显著推动了自主机器学习(ML)工程的发展。然而,现有方法过度依赖人工prompt工程,无法根据多样化的实验经验进行调整和优化。本文首次探索了基于学习的智能体ML范式,其中LLM智能体通过在线强化学习(RL)在ML任务上进行交互式实验来学习。为此,我们提出了一个新颖的智能体ML训练框架,包含三个关键组件:(1)探索增强的微调,使LLM智能体能够生成多样化的动作,以增强RL探索;(2)步进式RL,支持在单个动作步骤上进行训练,加速经验收集并提高训练效率;(3)智能体ML特定的奖励模块,将各种ML反馈信号统一为一致的奖励,用于RL优化。我们利用该框架训练了ML-Agent,它由一个7B大小的Qwen-2.5 LLM驱动,用于自主ML。值得注意的是,尽管仅在9个ML任务上进行了训练,但我们的7B大小的ML-Agent优于671B大小的DeepSeek-R1智能体。此外,它实现了持续的性能改进,并展示了卓越的跨任务泛化能力。

🔬 方法详解

问题定义:现有基于LLM的自主机器学习工程方法严重依赖人工设计的prompt,这限制了智能体探索和适应不同ML任务的能力。人工prompt工程耗时且难以泛化,无法充分利用LLM的潜力进行自主优化。

核心思路:本文的核心思路是利用强化学习(RL)来训练LLM智能体,使其能够通过与ML任务的交互进行学习和优化。通过在线RL,智能体可以根据实验结果调整其行为,从而克服人工prompt工程的局限性,实现真正的自主机器学习。

技术框架:该框架包含三个主要组件:(1) 探索增强的微调:通过微调LLM,使其能够生成更多样化的动作,从而促进RL的探索。(2) 步进式RL:将训练分解为单个动作步骤,加速经验收集和训练过程。(3) 智能体ML特定的奖励模块:将各种ML反馈信号(例如,准确率、损失)转换为统一的奖励信号,用于RL优化。整体流程是智能体根据当前状态选择动作,执行动作后获得奖励,然后利用奖励更新策略。

关键创新:最重要的创新在于将强化学习引入到LLM智能体的训练中,使其能够自主地学习和优化ML任务。与传统的prompt工程方法相比,这种方法能够更好地适应不同的ML任务,并实现更高的性能。此外,步进式RL和智能体ML特定的奖励模块也是关键创新,它们提高了训练效率和效果。

关键设计:LLM采用Qwen-2.5模型,大小为7B。探索增强的微调采用特定的损失函数来鼓励动作的多样性。奖励模块的设计需要仔细考虑不同ML反馈信号的权重,以确保RL能够有效地优化智能体的行为。具体参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,仅在9个ML任务上训练的7B大小的ML-Agent,其性能超越了671B大小的DeepSeek-R1智能体。此外,ML-Agent还展现出持续的性能改进和卓越的跨任务泛化能力,证明了该方法的有效性和潜力。这些结果表明,通过强化学习训练的LLM智能体在自主机器学习工程方面具有显著优势。

🎯 应用场景

该研究成果可应用于自动化机器学习流程的各个环节,例如数据预处理、模型选择、超参数优化等。它能够降低机器学习的门槛,使非专业人士也能轻松构建高性能的ML模型。未来,该技术有望推动AI在各个领域的广泛应用,例如医疗诊断、金融风控、智能制造等。

📄 摘要(原文)

The emergence of large language model (LLM)-based agents has significantly advanced the development of autonomous machine learning (ML) engineering. However, most existing approaches rely heavily on manual prompt engineering, failing to adapt and optimize based on diverse experimental experiences. Focusing on this, for the first time, we explore the paradigm of learning-based agentic ML, where an LLM agent learns through interactive experimentation on ML tasks using online reinforcement learning (RL). To realize this, we propose a novel agentic ML training framework with three key components: (1) exploration-enriched fine-tuning, which enables LLM agents to generate diverse actions for enhanced RL exploration; (2) step-wise RL, which enables training on a single action step, accelerating experience collection and improving training efficiency; (3) an agentic ML-specific reward module, which unifies varied ML feedback signals into consistent rewards for RL optimization. Leveraging this framework, we train ML-Agent, driven by a 7B-sized Qwen-2.5 LLM for autonomous ML. Remarkably, despite being trained on merely 9 ML tasks, our 7B-sized ML-Agent outperforms the 671B-sized DeepSeek-R1 agent. Furthermore, it achieves continuous performance improvements and demonstrates exceptional cross-task generalization capabilities.