MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

作者: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang

分类: cs.SE, cs.AI

发布日期: 2026-01-30

🔗 代码/项目: GITHUB

💡 一句话要点

MEnvAgent：用于可验证软件工程的可扩展多语言环境构建框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 软件工程 大型语言模型 多语言环境 自动化构建 多Agent系统

📋 核心要点

现有软件工程LLM Agent受限于缺乏可验证的多语言数据集，环境构建复杂且成本高昂。
MEnvAgent采用多Agent协作，通过规划、执行和验证循环，自动化构建和修复多语言环境。
实验表明，MEnvAgent在环境构建成功率和效率上均优于基线，并构建了大型多语言数据集。

📝 摘要（中文）

大型语言模型（LLM）Agent在软件工程（SWE）中的发展受到可验证数据集稀缺的限制，这源于跨多种语言构建可执行环境的复杂性。为了解决这个问题，我们提出了MEnvAgent，一个用于自动化环境构建的多语言框架，它促进了可验证任务实例的可扩展生成。MEnvAgent采用多Agent的规划-执行-验证架构，自主解决构建失败，并集成了一种新颖的环境复用机制，通过增量修补历史环境来减少计算开销。在包含10种语言的1000个任务的新基准MEnvBench上的评估表明，MEnvAgent优于基线，将失败到成功（F2P）率提高了8.6%，同时降低了43%的时间成本。此外，我们通过构建MEnvData-SWE展示了MEnvAgent的实用性，这是迄今为止最大的开源多语言真实可验证Docker环境数据集，以及解决方案轨迹，可在各种模型上实现SWE任务的一致性能提升。我们的代码、基准和数据集可在https://github.com/ernie-research/MEnvAgent上找到。

🔬 方法详解

问题定义：现有软件工程任务中，缺乏大规模、可验证的多语言环境数据集，导致LLM Agent在跨语言软件开发任务中表现受限。手动构建这些环境耗时且容易出错，阻碍了相关研究的进展。现有方法难以有效处理不同编程语言的依赖关系和构建流程，导致环境构建失败率高。

核心思路：MEnvAgent的核心思路是利用多Agent协作，模拟软件工程师构建环境的过程。通过规划Agent制定构建方案，执行Agent执行构建步骤，验证Agent评估构建结果，形成一个闭环反馈系统。同时，引入环境复用机制，避免重复构建，提高效率。

技术框架：MEnvAgent采用Planning-Execution-Verification架构。Planning Agent负责分析任务需求，生成环境构建计划。Execution Agent负责执行计划，包括安装依赖、配置环境等。Verification Agent负责验证环境是否满足任务需求。如果验证失败，则将失败信息反馈给Planning Agent，重新规划。此外，MEnvAgent还包含一个环境存储模块，用于存储已构建的环境，以便后续复用。

关键创新：MEnvAgent的关键创新在于其多Agent协作的自动化环境构建流程和环境复用机制。多Agent协作能够有效处理复杂的依赖关系和构建流程，提高环境构建成功率。环境复用机制能够显著减少计算开销，提高效率。

关键设计：Planning Agent使用LLM生成环境构建计划，Execution Agent使用Docker API执行构建步骤，Verification Agent通过运行测试用例或执行预定义脚本来验证环境。环境复用机制采用增量修补的方式，只修改历史环境中的差异部分，避免完全重建。

🖼️ 关键图片

📊 实验亮点

在MEnvBench基准测试中，MEnvAgent的Fail-to-Pass (F2P) 率比基线提高了8.6%，同时时间成本降低了43%。此外，该论文构建了迄今为止最大的开源多语言真实可验证Docker环境数据集MEnvData-SWE，并证明了其在提升SWE任务性能方面的有效性。

🎯 应用场景

MEnvAgent可用于构建大规模、可验证的多语言软件工程数据集，促进LLM Agent在软件开发领域的应用。该框架可用于自动化测试、代码生成、代码修复等任务，提高软件开发效率和质量。此外，该研究对于推动多语言编程和跨平台软件开发具有重要意义。

📄 摘要（原文）

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理