ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

📄 arXiv: 2601.11077v1 📥 PDF

作者: Jie Yang, Honglin Guo, Li Ji, Jiazheng Zhou, Rui Zheng, Zhikai Lei, Shuo Zhang, Zhiheng Xi, Shichun Liu, Yuxin Wang, Bo Wang, Yining Zheng, Tao Gui, Xipeng Qiu

分类: cs.SE, cs.AI, cs.CL

发布日期: 2026-01-16

🔗 代码/项目: GITHUB


💡 一句话要点

ABC-Bench:真实后端开发中Agentic编码的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic编码 后端开发 基准测试 大型语言模型 自动化流程

📋 核心要点

  1. 现有代码基准测试侧重静态代码逻辑,忽略了真实后端开发中动态、完整的工程流程需求。
  2. ABC-Bench旨在提供一个真实的、可执行的Agentic后端编码评估基准,涵盖完整的开发生命周期。
  3. 实验表明,即使是最先进的模型在ABC-Bench上表现不佳,揭示了模型能力与实际后端工程需求间的差距。

📝 摘要(中文)

大型语言模型(LLMs)发展为自主Agent,扩展了AI编码的范围,从局部代码生成到复杂的、仓库级别的、执行驱动的问题解决。然而,当前的基准测试主要评估静态上下文中的代码逻辑,忽略了真实工程的动态、完整流程需求,尤其是在需要严格环境配置和服务部署的后端开发中。为了解决这一差距,我们引入了ABC-Bench,这是一个专门设计的基准,用于在真实的、可执行的工作流程中评估Agentic后端编码。通过可扩展的自动化流程,我们从开源仓库中整理了224个涵盖8种语言和19个框架的实际任务。与之前的评估不同,ABC-Bench要求Agent管理整个开发生命周期,从仓库探索到实例化容器化服务,并通过外部端到端API测试。我们的大量评估表明,即使是最先进的模型也难以在这些整体任务上提供可靠的性能,突出了当前模型能力与实际后端工程需求之间的巨大差距。我们的代码可在https://github.com/OpenMOSS/ABC-Bench获取。

🔬 方法详解

问题定义:现有的大语言模型代码能力评测benchmark主要关注静态的代码生成和逻辑正确性,缺乏对真实后端开发场景的模拟。真实后端开发涉及复杂的环境配置、服务部署、依赖管理以及端到端API测试,这些动态的、完整的流程需求在现有benchmark中被忽略。因此,现有模型在这些benchmark上表现良好,但实际应用效果可能不佳。

核心思路:ABC-Bench的核心思路是构建一个贴近真实后端开发场景的benchmark,要求Agent能够自主完成从仓库探索、环境配置、服务部署到API测试的整个开发生命周期。通过模拟真实开发流程,更全面地评估Agent的编码能力和解决实际问题的能力。

技术框架:ABC-Bench的整体框架包含以下几个主要阶段:1) 任务定义:从开源仓库中选取实际的后端开发任务,涵盖多种编程语言和框架。2) 环境配置:Agent需要根据任务需求配置开发环境,包括安装依赖、设置环境变量等。3) 代码编写:Agent根据任务描述编写代码,实现所需的功能。4) 服务部署:Agent将编写的代码部署到容器化的环境中,例如Docker。5) API测试:通过外部API测试验证Agent部署的服务是否符合预期。

关键创新:ABC-Bench的关键创新在于其真实性和完整性。它不仅关注代码的逻辑正确性,更关注Agent在真实开发环境中的表现。通过模拟完整的开发流程,ABC-Bench能够更全面地评估Agent的编码能力和解决实际问题的能力。与现有benchmark相比,ABC-Bench更贴近实际应用场景,能够更好地反映Agent的真实水平。

关键设计:ABC-Bench的关键设计包括:1) 任务选择:选择具有代表性的、难度适中的后端开发任务,保证benchmark的挑战性和实用性。2) 自动化流程:构建可扩展的自动化流程,能够自动完成环境配置、服务部署和API测试,提高benchmark的效率和可重复性。3) 评估指标:采用多种评估指标,包括代码正确性、API测试通过率、资源消耗等,全面评估Agent的性能。

📊 实验亮点

实验结果表明,即使是最先进的模型在ABC-Bench上的表现也远低于预期,API测试通过率较低,表明现有模型在处理复杂的后端开发任务时仍存在较大差距。这一结果突出了当前模型能力与实际后端工程需求之间的巨大差距,为未来的研究方向提供了重要启示。

🎯 应用场景

ABC-Bench可用于评估和改进大型语言模型在后端开发领域的应用能力。通过该基准测试,可以发现现有模型的不足之处,并指导模型的设计和训练,使其更好地适应实际的后端开发需求。此外,ABC-Bench还可以用于比较不同Agent的性能,为开发者选择合适的Agent提供参考。

📄 摘要(原文)

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.