ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

作者: Jie Yang, Honglin Guo, Li Ji, Jiazheng Zhou, Rui Zheng, Zhikai Lei, Shuo Zhang, Zhiheng Xi, Shichun Liu, Yuxin Wang, Bo Wang, Yining Zheng, Tao Gui, Xipeng Qiu

分类: cs.SE, cs.AI, cs.CL

发布日期: 2026-01-16

🔗 代码/项目: GITHUB

💡 一句话要点

ABC-Bench：真实后端开发中Agentic编码的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic编码 后端开发 基准测试 大型语言模型 自动化流程

📋 核心要点

现有代码基准测试侧重静态代码逻辑，忽略了真实后端开发中动态、完整的工程流程需求。
ABC-Bench旨在提供一个真实的、可执行的Agentic后端编码评估基准，涵盖完整的开发生命周期。
实验表明，即使是最先进的模型在ABC-Bench上表现不佳，揭示了模型能力与实际后端工程需求间的差距。

📝 摘要（中文）

大型语言模型（LLMs）发展为自主Agent，扩展了AI编码的范围，从局部代码生成到复杂的、仓库级别的、执行驱动的问题解决。然而，当前的基准测试主要评估静态上下文中的代码逻辑，忽略了真实工程的动态、完整流程需求，尤其是在需要严格环境配置和服务部署的后端开发中。为了解决这一差距，我们引入了ABC-Bench，这是一个专门设计的基准，用于在真实的、可执行的工作流程中评估Agentic后端编码。通过可扩展的自动化流程，我们从开源仓库中整理了224个涵盖8种语言和19个框架的实际任务。与之前的评估不同，ABC-Bench要求Agent管理整个开发生命周期，从仓库探索到实例化容器化服务，并通过外部端到端API测试。我们的大量评估表明，即使是最先进的模型也难以在这些整体任务上提供可靠的性能，突出了当前模型能力与实际后端工程需求之间的巨大差距。我们的代码可在https://github.com/OpenMOSS/ABC-Bench获取。

🔬 方法详解

问题定义：现有的大语言模型代码能力评测benchmark主要关注静态的代码生成和逻辑正确性，缺乏对真实后端开发场景的模拟。真实后端开发涉及复杂的环境配置、服务部署、依赖管理以及端到端API测试，这些动态的、完整的流程需求在现有benchmark中被忽略。因此，现有模型在这些benchmark上表现良好，但实际应用效果可能不佳。

核心思路：ABC-Bench的核心思路是构建一个贴近真实后端开发场景的benchmark，要求Agent能够自主完成从仓库探索、环境配置、服务部署到API测试的整个开发生命周期。通过模拟真实开发流程，更全面地评估Agent的编码能力和解决实际问题的能力。

技术框架：ABC-Bench的整体框架包含以下几个主要阶段：1) 任务定义：从开源仓库中选取实际的后端开发任务，涵盖多种编程语言和框架。2) 环境配置：Agent需要根据任务需求配置开发环境，包括安装依赖、设置环境变量等。3) 代码编写：Agent根据任务描述编写代码，实现所需的功能。4) 服务部署：Agent将编写的代码部署到容器化的环境中，例如Docker。5) API测试：通过外部API测试验证Agent部署的服务是否符合预期。

关键创新：ABC-Bench的关键创新在于其真实性和完整性。它不仅关注代码的逻辑正确性，更关注Agent在真实开发环境中的表现。通过模拟完整的开发流程，ABC-Bench能够更全面地评估Agent的编码能力和解决实际问题的能力。与现有benchmark相比，ABC-Bench更贴近实际应用场景，能够更好地反映Agent的真实水平。

关键设计：ABC-Bench的关键设计包括：1) 任务选择：选择具有代表性的、难度适中的后端开发任务，保证benchmark的挑战性和实用性。2) 自动化流程：构建可扩展的自动化流程，能够自动完成环境配置、服务部署和API测试，提高benchmark的效率和可重复性。3) 评估指标：采用多种评估指标，包括代码正确性、API测试通过率、资源消耗等，全面评估Agent的性能。

📊 实验亮点

实验结果表明，即使是最先进的模型在ABC-Bench上的表现也远低于预期，API测试通过率较低，表明现有模型在处理复杂的后端开发任务时仍存在较大差距。这一结果突出了当前模型能力与实际后端工程需求之间的巨大差距，为未来的研究方向提供了重要启示。

🎯 应用场景

ABC-Bench可用于评估和改进大型语言模型在后端开发领域的应用能力。通过该基准测试，可以发现现有模型的不足之处，并指导模型的设计和训练，使其更好地适应实际的后端开发需求。此外，ABC-Bench还可以用于比较不同Agent的性能，为开发者选择合适的Agent提供参考。

📄 摘要（原文）

The evolution of Large Language Models (LLMs) into autonomous agents has expanded the scope of AI coding from localized code generation to complex, repository-level, and execution-driven problem solving. However, current benchmarks predominantly evaluate code logic in static contexts, neglecting the dynamic, full-process requirements of real-world engineering, particularly in backend development which demands rigorous environment configuration and service deployment. To address this gap, we introduce ABC-Bench, a benchmark explicitly designed to evaluate agentic backend coding within a realistic, executable workflow. Using a scalable automated pipeline, we curated 224 practical tasks spanning 8 languages and 19 frameworks from open-source repositories. Distinct from previous evaluations, ABC-Bench require the agents to manage the entire development lifecycle from repository exploration to instantiating containerized services and pass the external end-to-end API tests. Our extensive evaluation reveals that even state-of-the-art models struggle to deliver reliable performance on these holistic tasks, highlighting a substantial disparity between current model capabilities and the demands of practical backend engineering. Our code is available at https://github.com/OpenMOSS/ABC-Bench.

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理