ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents

📄 arXiv: 2604.01527 📥 PDF

作者: Smriti Jha, Matteo Paltenghi, Chandra Maddila, Vijayaraghavan Murali, Shubham Ugare, Satish Chandra

分类: cs.SE, cs.AI, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出ProdCodeBench,一个源于真实生产环境的AI代码生成Agent评估基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码生成 AI Agent 基准测试 生产环境 模型评估

📋 核心要点

  1. 现有代码生成Agent评估基准与实际生产环境存在差异,包括编程语言分布、提示风格和代码库结构。
  2. 提出一种从真实开发者-Agent会话中提取并构建基准测试的方法,以更真实地反映生产环境。
  3. 构建了ProdCodeBench基准,并在其上评估了多个基础模型,解决率在53.2%到72.2%之间,验证了基准的有效性。

📝 摘要(中文)

本文提出了一种用于构建源于生产环境的基准测试方法,以更好地评估工业环境中AI代码生成Agent。通过ProdCodeBench,一个源于真实开发者-Agent会话的基准测试,展示了该方法。详细介绍了数据收集和管理实践,包括基于LLM的任务分类、测试相关性验证和多轮稳定性检查,解决了从单代码仓库环境中构建可靠评估信号的挑战。每个样本包含一个完整的提示、一个已提交的代码更改以及横跨七种编程语言的fail-to-pass测试。对四个基础模型的系统分析表明,解决率范围从53.2%到72.2%。证明了这些离线评估信号如何驱动模型选择和利用设计的实际决策,同时指出离线基准测试提供方向性信号,需要通过在线A/B测试进行补充,以进行生产部署决策。分享了方法和经验教训,以使其他组织能够构建类似的源于生产环境的基准测试。

🔬 方法详解

问题定义:现有代码生成Agent的评估基准不能很好地反映实际生产环境中的工作负载。这些基准在编程语言的分布、提示的风格以及代码库的结构上与真实场景存在差异。因此,需要一种更贴近生产环境的评估方法,以更好地指导AI代码生成Agent在工业界的应用。

核心思路:核心思路是从真实的开发者-Agent会话中提取数据,构建一个源于生产环境的基准测试。通过收集实际的提示、代码更改和测试用例,可以更准确地评估AI代码生成Agent在真实场景中的表现。这种方法能够克服现有基准测试与实际应用之间的差距。

技术框架:ProdCodeBench的构建流程主要包括以下几个阶段:1) 数据收集:从真实的开发者-Agent会话中收集数据,包括提示、代码更改和测试用例。2) 任务分类:使用LLM对收集到的任务进行分类,确保基准测试的多样性。3) 测试相关性验证:验证测试用例与代码更改的相关性,确保评估的准确性。4) 多轮稳定性检查:进行多轮测试,验证评估结果的稳定性。

关键创新:关键创新在于基准测试的数据来源。ProdCodeBench直接从真实的生产环境数据中提取,而不是人工合成或从开源项目中获取。这种方法能够更真实地反映实际应用场景,从而更准确地评估AI代码生成Agent的性能。此外,该方法还包括了对测试用例相关性和评估结果稳定性的验证,提高了评估的可靠性。

关键设计:在数据收集方面,需要确保数据的代表性和多样性,覆盖不同的编程语言和任务类型。在任务分类方面,需要选择合适的LLM模型,并进行微调,以提高分类的准确性。在测试相关性验证方面,可以使用代码分析技术,例如静态分析和动态分析,来验证测试用例与代码更改之间的关系。在多轮稳定性检查方面,需要进行足够多的测试轮次,并使用统计方法来分析评估结果的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ProdCodeBench基准上,对四个基础模型进行了评估,解决率范围从53.2%到72.2%。实验结果表明,离线评估信号可以有效地驱动模型选择和利用设计的实际决策。此外,研究还强调了离线基准测试的方向性作用,并建议结合在线A/B测试进行生产部署决策。

🎯 应用场景

该研究成果可应用于AI代码生成Agent的评估和选择,帮助企业选择最适合其生产环境的模型。此外,该方法还可以用于指导AI代码生成Agent的训练和优化,提高其在实际应用中的性能。未来,可以进一步扩展该基准测试,覆盖更多的编程语言和任务类型,并探索更有效的评估指标。

📄 摘要(原文)

Benchmarks that reflect production workloads are better for evaluating AI coding agents in industrial settings, yet existing benchmarks differ from real usage in programming language distribution, prompt style and codebase structure. This paper presents a methodology for curating production-derived benchmarks, illustrated through ProdCodeBench, a benchmark sourced from real developer-agent sessions. We detail our data collection and curation practices including LLM-based task classification, test relevance validation, and multi-run stability checks which address challenges in constructing reliable evaluation signals from monorepo environments. Each curated sample consists of a verbatim prompt, a committed code change and fail-to-pass tests spanning seven programming languages. Our systematic analysis of four foundation models yields solve rates ranging from 53.2% to 72.2%. We demonstrate how these offline evaluation signals drive practical decisions around model selection and harness design, while noting that offline benchmarks provide directional signal that we complement with online A/B testing for production deployment decisions. We share our methodology and lessons learned to enable other organizations to construct similar production-derived benchmarks.