MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

📄 arXiv: 2505.07782v1 📥 PDF

作者: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai

分类: cs.LG

发布日期: 2025-05-12


💡 一句话要点

MLE-Dojo:交互式环境赋能LLM智能体进行机器学习工程

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器学习工程 大型语言模型 强化学习 交互式环境 自动化机器学习 Kaggle挑战 智能体 模型调试

📋 核心要点

  1. 现有机器学习工程基准主要依赖静态数据或单次评估,缺乏迭代调试和反馈机制,限制了LLM智能体的能力。
  2. MLE-Dojo构建交互式环境,基于真实Kaggle挑战,支持LLM智能体通过实验、调试和反馈循环迭代优化机器学习流程。
  3. 实验表明,当前LLM在MLE-Dojo中能实现迭代改进,但在长程解决方案生成和复杂错误解决方面仍有提升空间。

📝 摘要(中文)

本文提出了MLE-Dojo,一个Gym风格的框架,用于系统性地强化学习、评估和改进自主大型语言模型(LLM)智能体在迭代式机器学习工程(MLE)工作流程中的表现。与主要依赖静态数据集或单次尝试评估的现有基准不同,MLE-Dojo提供了一个交互式环境,使智能体能够通过结构化的反馈循环迭代地实验、调试和改进解决方案。MLE-Dojo构建于200多个真实世界的Kaggle挑战之上,涵盖了多样化的、开放式的MLE任务,这些任务经过精心策划,反映了真实工程场景,如数据处理、架构搜索、超参数调优和代码调试。其完全可执行的环境支持通过监督微调和强化学习进行全面的智能体训练,从而促进迭代实验、真实数据采样和实时结果验证。对八个前沿LLM的广泛评估表明,虽然当前的模型实现了有意义的迭代改进,但在自主生成长程解决方案和有效解决复杂错误方面仍然存在显著的局限性。此外,MLE-Dojo的灵活和可扩展的架构无缝集成了多样化的数据源、工具和评估协议,独特地实现了基于模型的智能体调优,并促进了互操作性、可扩展性和可重复性。我们开源了我们的框架和基准,以促进社区驱动的创新,从而推动下一代MLE智能体的进步。

🔬 方法详解

问题定义:论文旨在解决LLM智能体在复杂、迭代的机器学习工程(MLE)任务中表现不足的问题。现有方法通常依赖于静态数据集或单次评估,无法模拟真实世界MLE流程中迭代实验、调试和反馈的重要性。这导致LLM智能体难以自主生成长程解决方案,并有效解决复杂错误。

核心思路:论文的核心思路是构建一个交互式环境,使LLM智能体能够通过与环境的交互,进行迭代实验、调试和改进。通过提供结构化的反馈循环,智能体可以学习如何更好地处理MLE任务中的各种挑战,例如数据处理、模型选择、超参数调优和代码调试。

技术框架:MLE-Dojo框架基于Gym风格的接口,包含以下主要模块:1) 环境:模拟真实的MLE任务,基于Kaggle挑战构建;2) 智能体:LLM智能体,负责执行MLE任务;3) 评估模块:评估智能体的性能,并提供反馈;4) 数据集:包含各种MLE任务所需的数据。整体流程是智能体与环境交互,执行任务,环境根据智能体的行为给出奖励或惩罚,智能体根据反馈调整策略,进行迭代学习。

关键创新:MLE-Dojo的关键创新在于其交互式环境的设计,它允许LLM智能体在真实世界的MLE场景中进行迭代实验和调试。与传统的静态数据集基准相比,MLE-Dojo能够更好地模拟真实MLE流程的复杂性和动态性,从而更有效地训练和评估LLM智能体。此外,该框架还支持多种数据源、工具和评估协议的集成,具有良好的可扩展性和互操作性。

关键设计:MLE-Dojo的关键设计包括:1) 基于Kaggle挑战构建环境,保证任务的真实性和多样性;2) 提供结构化的反馈循环,帮助智能体学习和改进;3) 支持监督微调和强化学习,灵活适应不同的智能体训练方法;4) 采用模块化设计,方便集成新的数据源、工具和评估协议。具体的参数设置、损失函数和网络结构取决于所使用的LLM智能体和具体的MLE任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对八个前沿LLM进行了广泛评估,结果表明,虽然当前模型在MLE-Dojo中实现了有意义的迭代改进,但在自主生成长程解决方案和有效解决复杂错误方面仍然存在显著的局限性。这表明,现有的LLM在复杂MLE任务中仍有很大的提升空间,MLE-Dojo可以作为一个有效的平台来推动相关研究。

🎯 应用场景

MLE-Dojo可应用于自动化机器学习流程、智能代码调试、模型优化等领域。通过训练更强大的LLM智能体,可以显著提高机器学习工程师的效率,降低开发成本,并加速机器学习模型的部署。未来,该框架有望推动AutoML技术的发展,实现更智能、更高效的机器学习工程。

📄 摘要(原文)

We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.