MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

📄 arXiv: 2601.22859v1 📥 PDF

作者: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang

分类: cs.SE, cs.AI

发布日期: 2026-01-30

🔗 代码/项目: GITHUB


💡 一句话要点

MEnvAgent:用于可验证软件工程的可扩展多语言环境构建框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程 大型语言模型 多语言环境 自动化构建 多Agent系统

📋 核心要点

  1. 现有软件工程LLM Agent受限于缺乏可验证的多语言数据集,环境构建复杂且成本高昂。
  2. MEnvAgent采用多Agent协作,通过规划、执行和验证循环,自动化构建和修复多语言环境。
  3. 实验表明,MEnvAgent在环境构建成功率和效率上均优于基线,并构建了大型多语言数据集。

📝 摘要(中文)

大型语言模型(LLM)Agent在软件工程(SWE)中的发展受到可验证数据集稀缺的限制,这源于跨多种语言构建可执行环境的复杂性。为了解决这个问题,我们提出了MEnvAgent,一个用于自动化环境构建的多语言框架,它促进了可验证任务实例的可扩展生成。MEnvAgent采用多Agent的规划-执行-验证架构,自主解决构建失败,并集成了一种新颖的环境复用机制,通过增量修补历史环境来减少计算开销。在包含10种语言的1000个任务的新基准MEnvBench上的评估表明,MEnvAgent优于基线,将失败到成功(F2P)率提高了8.6%,同时降低了43%的时间成本。此外,我们通过构建MEnvData-SWE展示了MEnvAgent的实用性,这是迄今为止最大的开源多语言真实可验证Docker环境数据集,以及解决方案轨迹,可在各种模型上实现SWE任务的一致性能提升。我们的代码、基准和数据集可在https://github.com/ernie-research/MEnvAgent上找到。

🔬 方法详解

问题定义:现有软件工程任务中,缺乏大规模、可验证的多语言环境数据集,导致LLM Agent在跨语言软件开发任务中表现受限。手动构建这些环境耗时且容易出错,阻碍了相关研究的进展。现有方法难以有效处理不同编程语言的依赖关系和构建流程,导致环境构建失败率高。

核心思路:MEnvAgent的核心思路是利用多Agent协作,模拟软件工程师构建环境的过程。通过规划Agent制定构建方案,执行Agent执行构建步骤,验证Agent评估构建结果,形成一个闭环反馈系统。同时,引入环境复用机制,避免重复构建,提高效率。

技术框架:MEnvAgent采用Planning-Execution-Verification架构。Planning Agent负责分析任务需求,生成环境构建计划。Execution Agent负责执行计划,包括安装依赖、配置环境等。Verification Agent负责验证环境是否满足任务需求。如果验证失败,则将失败信息反馈给Planning Agent,重新规划。此外,MEnvAgent还包含一个环境存储模块,用于存储已构建的环境,以便后续复用。

关键创新:MEnvAgent的关键创新在于其多Agent协作的自动化环境构建流程和环境复用机制。多Agent协作能够有效处理复杂的依赖关系和构建流程,提高环境构建成功率。环境复用机制能够显著减少计算开销,提高效率。

关键设计:Planning Agent使用LLM生成环境构建计划,Execution Agent使用Docker API执行构建步骤,Verification Agent通过运行测试用例或执行预定义脚本来验证环境。环境复用机制采用增量修补的方式,只修改历史环境中的差异部分,避免完全重建。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MEnvBench基准测试中,MEnvAgent的Fail-to-Pass (F2P) 率比基线提高了8.6%,同时时间成本降低了43%。此外,该论文构建了迄今为止最大的开源多语言真实可验证Docker环境数据集MEnvData-SWE,并证明了其在提升SWE任务性能方面的有效性。

🎯 应用场景

MEnvAgent可用于构建大规模、可验证的多语言软件工程数据集,促进LLM Agent在软件开发领域的应用。该框架可用于自动化测试、代码生成、代码修复等任务,提高软件开发效率和质量。此外,该研究对于推动多语言编程和跨平台软件开发具有重要意义。

📄 摘要(原文)

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.