Synthetic Sandbox for Training Machine Learning Engineering Agents

作者: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan

分类: cs.CL, cs.LG

发布日期: 2026-04-07

💡 一句话要点

提出SandMLE框架，通过合成微型MLE环境，首次实现MLE领域的大规模在线强化学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器学习工程 强化学习 合成数据 多智能体系统 自动化机器学习

📋 核心要点

MLE智能体验证成本高昂，传统在线强化学习因需运行完整ML pipeline而速度受限，难以探索和泛化。
SandMLE通过生成微型合成MLE环境，降低数据规模，保留问题复杂性，从而加速在线强化学习。
实验表明，SandMLE显著降低执行时间，提升模型性能，并具备良好的泛化能力，优于监督微调方法。

📝 摘要（中文）

随着大型语言模型智能体从软件工程（SWE）任务向机器学习工程（MLE）任务发展，验证智能体的行为变得异常昂贵。SWE任务可以通过快速执行的单元测试进行验证，而MLE验证需要在每个rollout步骤中，对大型数据集运行完整的ML pipeline——数据预处理、模型训练和指标评估，这使得trajectory-wise的在线强化学习（RL）速度非常慢。现有方法退回到监督微调（SFT）或离线代理奖励，牺牲了在线RL的探索和泛化优势。我们观察到sandbox数据大小是这个瓶颈的主要来源。基于此，我们提出了SandMLE，一个多智能体框架，它从少量种子任务生成多样且可验证的合成MLE环境，在将数据集限制在微观规模（每个任务仅配对50-200个训练样本）的同时，保留了真实世界问题的结构和技术复杂性。通过大量实验，我们表明SandMLE将执行时间减少了13倍以上，首次在MLE领域实现了大规模的在线trajectory-wise RL。在MLE-bench-lite上，SandMLE在Qwen3-8B、14B和30B-A3B上获得了相对于SFT基线的显著收益，相对奖牌率提高了20.3%到66.9%。此外，训练后的策略可以泛化到未见过的智能体scaffold，在MLE-Dojo上实现了高达32.4%的HumanRank分数提升。

🔬 方法详解

问题定义：现有MLE智能体训练中，验证智能体行为需要运行完整的机器学习pipeline，包括数据预处理、模型训练和指标评估，这在大型数据集上非常耗时。传统的在线强化学习方法因此变得难以应用，因为每次迭代都需要大量的计算资源和时间。现有方法通常采用监督微调或离线代理奖励，但这些方法牺牲了在线强化学习的探索和泛化能力。

核心思路：SandMLE的核心思路是通过构建合成的、小规模的MLE环境来加速在线强化学习。通过从少量种子任务生成多样化的、可验证的合成环境，SandMLE能够在保持问题结构和技术复杂性的同时，将数据集规模限制在微观级别。这样，每次迭代的计算成本大大降低，使得在线强化学习成为可能。

技术框架：SandMLE是一个多智能体框架，其主要流程包括：1) 从少量种子任务出发，定义MLE任务的结构和技术复杂性；2) 利用多智能体系统生成多样化的合成MLE环境，每个环境包含小规模的数据集（50-200个样本）；3) 在这些合成环境中，使用在线强化学习算法训练MLE智能体；4) 在真实的MLE环境中评估训练好的智能体的性能。

关键创新：SandMLE的关键创新在于它能够生成多样化且可验证的合成MLE环境，从而解决了在线强化学习在MLE领域中数据规模瓶颈的问题。与传统的监督微调或离线代理奖励方法相比，SandMLE保留了在线强化学习的探索和泛化优势。

关键设计：SandMLE的关键设计包括：1) 如何从种子任务生成多样化的合成环境，这可能涉及到使用生成模型或变分自编码器等技术；2) 如何确保合成环境的真实性和可验证性，这可能需要设计特定的奖励函数或约束条件；3) 如何选择合适的在线强化学习算法，例如PPO或SAC，并针对MLE任务进行优化。

🖼️ 关键图片

📊 实验亮点

SandMLE框架在MLE-bench-lite上，相较于SFT基线，在Qwen3-8B、14B和30B-A3B模型上取得了显著的性能提升，相对奖牌率提高了20.3%到66.9%。此外，训练后的策略在MLE-Dojo上表现出良好的泛化能力，HumanRank分数提升高达32.4%。同时，SandMLE将执行时间减少了13倍以上。

🎯 应用场景

SandMLE可应用于自动化机器学习流程设计、模型选择、超参数优化等领域。通过快速迭代和在线学习，可以加速机器学习模型的开发和部署，降低人工成本，提升模型性能。该研究对推动AI在工业界的落地具有重要意义。

📄 摘要（原文）

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Synthetic Sandbox for Training Machine Learning Engineering Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理