Synthetic Sandbox for Training Machine Learning Engineering Agents

📄 arXiv: 2604.04872 📥 PDF

作者: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan

分类: cs.CL, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出SandMLE框架,通过合成微型MLE环境,首次实现MLE领域的大规模在线强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器学习工程 强化学习 合成数据 多智能体系统 自动化机器学习

📋 核心要点

  1. MLE智能体验证成本高昂,传统在线强化学习因需运行完整ML pipeline而速度受限,难以探索和泛化。
  2. SandMLE通过生成微型合成MLE环境,降低数据规模,保留问题复杂性,从而加速在线强化学习。
  3. 实验表明,SandMLE显著降低执行时间,提升模型性能,并具备良好的泛化能力,优于监督微调方法。

📝 摘要(中文)

随着大型语言模型智能体从软件工程(SWE)任务向机器学习工程(MLE)任务发展,验证智能体的行为变得异常昂贵。SWE任务可以通过快速执行的单元测试进行验证,而MLE验证需要在每个rollout步骤中,对大型数据集运行完整的ML pipeline——数据预处理、模型训练和指标评估,这使得trajectory-wise的在线强化学习(RL)速度非常慢。现有方法退回到监督微调(SFT)或离线代理奖励,牺牲了在线RL的探索和泛化优势。我们观察到sandbox数据大小是这个瓶颈的主要来源。基于此,我们提出了SandMLE,一个多智能体框架,它从少量种子任务生成多样且可验证的合成MLE环境,在将数据集限制在微观规模(每个任务仅配对50-200个训练样本)的同时,保留了真实世界问题的结构和技术复杂性。通过大量实验,我们表明SandMLE将执行时间减少了13倍以上,首次在MLE领域实现了大规模的在线trajectory-wise RL。在MLE-bench-lite上,SandMLE在Qwen3-8B、14B和30B-A3B上获得了相对于SFT基线的显著收益,相对奖牌率提高了20.3%到66.9%。此外,训练后的策略可以泛化到未见过的智能体scaffold,在MLE-Dojo上实现了高达32.4%的HumanRank分数提升。

🔬 方法详解

问题定义:现有MLE智能体训练中,验证智能体行为需要运行完整的机器学习pipeline,包括数据预处理、模型训练和指标评估,这在大型数据集上非常耗时。传统的在线强化学习方法因此变得难以应用,因为每次迭代都需要大量的计算资源和时间。现有方法通常采用监督微调或离线代理奖励,但这些方法牺牲了在线强化学习的探索和泛化能力。

核心思路:SandMLE的核心思路是通过构建合成的、小规模的MLE环境来加速在线强化学习。通过从少量种子任务生成多样化的、可验证的合成环境,SandMLE能够在保持问题结构和技术复杂性的同时,将数据集规模限制在微观级别。这样,每次迭代的计算成本大大降低,使得在线强化学习成为可能。

技术框架:SandMLE是一个多智能体框架,其主要流程包括:1) 从少量种子任务出发,定义MLE任务的结构和技术复杂性;2) 利用多智能体系统生成多样化的合成MLE环境,每个环境包含小规模的数据集(50-200个样本);3) 在这些合成环境中,使用在线强化学习算法训练MLE智能体;4) 在真实的MLE环境中评估训练好的智能体的性能。

关键创新:SandMLE的关键创新在于它能够生成多样化且可验证的合成MLE环境,从而解决了在线强化学习在MLE领域中数据规模瓶颈的问题。与传统的监督微调或离线代理奖励方法相比,SandMLE保留了在线强化学习的探索和泛化优势。

关键设计:SandMLE的关键设计包括:1) 如何从种子任务生成多样化的合成环境,这可能涉及到使用生成模型或变分自编码器等技术;2) 如何确保合成环境的真实性和可验证性,这可能需要设计特定的奖励函数或约束条件;3) 如何选择合适的在线强化学习算法,例如PPO或SAC,并针对MLE任务进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SandMLE框架在MLE-bench-lite上,相较于SFT基线,在Qwen3-8B、14B和30B-A3B模型上取得了显著的性能提升,相对奖牌率提高了20.3%到66.9%。此外,训练后的策略在MLE-Dojo上表现出良好的泛化能力,HumanRank分数提升高达32.4%。同时,SandMLE将执行时间减少了13倍以上。

🎯 应用场景

SandMLE可应用于自动化机器学习流程设计、模型选择、超参数优化等领域。通过快速迭代和在线学习,可以加速机器学习模型的开发和部署,降低人工成本,提升模型性能。该研究对推动AI在工业界的落地具有重要意义。

📄 摘要(原文)

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.