Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks

📄 arXiv: 2505.07473v1 📥 PDF

作者: Kai Xu, YiWei Mao, XinYi Guan, ZiLong Feng

分类: cs.AI

发布日期: 2025-05-12

备注: 28 pages, 15 figures


💡 一句话要点

提出Web-Bench,一个基于Web标准与框架的大语言模型代码生成基准测试,解决现有基准饱和问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码生成 大语言模型 基准测试 Web开发 Web标准 Web框架 软件工程 自主编码

📋 核心要点

  1. 现有代码生成基准测试逐渐饱和,无法有效指导大语言模型(LLMs)的进一步发展,亟需新的、更具挑战性的基准。
  2. Web-Bench通过模拟真实Web开发流程,构建包含50个项目、每个项目20个任务的基准,涵盖Web标准和框架。
  3. 实验表明,即使是SOTA模型在Web-Bench上的Pass@1得分也远低于现有基准,证明了其难度和区分度。

📝 摘要(中文)

大语言模型(LLMs)在代码领域的应用迅速发展,从代码助手到自主编码代理,再到通过自然语言生成完整项目。早期的LLM代码基准测试主要关注代码生成准确性,但这些基准测试已逐渐饱和,削弱了它们对LLM的指导作用。例如,HumanEval Pass@1已达到99.4%,MBPP达到94.2%。在解决基准饱和的各种尝试中,基于软件工程的方法脱颖而出,但现有软件工程基准的饱和速度也在迅速增加。为了解决这个问题,我们提出了一个新的基准测试Web-Bench,它包含50个项目,每个项目由20个具有顺序依赖性的任务组成。这些任务按顺序实现项目功能,模拟真实世界的人工开发工作流程。在设计Web-Bench时,我们的目标是涵盖Web开发的基础要素:Web标准和Web框架。鉴于这些项目由具有5到10年经验的工程师设计,其规模和复杂性都带来了重大挑战。平均而言,一个高级工程师完成一个项目需要4到8个小时。在我们的基准代理(Web-Agent)上,SOTA模型(Claude 3.7 Sonnet)仅达到25.1%的Pass@1,远低于SWE-Bench的Verified(65.4%)和Full(33.8%)分数。最后,我们讨论了在任何开发领域,标准和框架分别代表基础知识和效率工具,LLM需要针对它们进行优化。

🔬 方法详解

问题定义:现有的大语言模型代码生成基准测试,如HumanEval和MBPP,已经接近饱和,无法有效区分不同模型的能力,也难以反映模型在复杂软件工程任务中的表现。现有的软件工程基准也面临快速饱和的问题。因此,需要一个新的、更具挑战性的基准来评估LLM在真实Web开发场景中的能力。

核心思路:Web-Bench的核心思路是模拟真实Web开发的工作流程,通过构建一系列具有顺序依赖性的任务,来评估LLM在完成完整Web项目时的能力。它强调对Web标准和框架的理解和应用,以此来考察LLM的实际开发能力。

技术框架:Web-Bench包含50个Web项目,每个项目包含20个按顺序执行的任务。每个任务对应项目中的一个具体功能,任务之间存在依赖关系,需要按顺序完成。基准测试需要一个代理(Web-Agent)来执行这些任务,并评估其完成情况。评估指标主要采用Pass@1,即一次尝试成功的概率。

关键创新:Web-Bench的关键创新在于其模拟真实Web开发流程的设计,以及对Web标准和框架的强调。与以往的基准测试相比,Web-Bench更注重考察LLM在复杂项目中的整体表现,而非单个代码片段的生成能力。此外,项目由经验丰富的工程师设计,保证了其难度和实用性。

关键设计:Web-Bench的关键设计包括:1) 项目的选择,确保涵盖常见的Web开发场景和技术;2) 任务的划分,保证任务的粒度和难度适中;3) 任务之间的依赖关系,模拟真实开发中的顺序执行;4) 评估指标的选择,采用Pass@1来衡量LLM的整体成功率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是SOTA模型(Claude 3.7 Sonnet)在Web-Bench上的Pass@1得分仅为25.1%,远低于其在SWE-Bench上的表现(Verified 65.4%,Full 33.8%)。这表明Web-Bench具有更高的难度和区分度,能够更有效地评估LLM在复杂Web开发任务中的能力。

🎯 应用场景

Web-Bench可用于评估和提升大语言模型在Web开发领域的应用能力。它可以帮助研究人员更好地了解LLM在处理复杂Web项目时的优势和不足,并指导LLM的优化方向。此外,Web-Bench还可以用于训练和评估自主编码代理,使其能够更好地完成实际的Web开发任务,提高开发效率。

📄 摘要(原文)

The application of large language models (LLMs) in the field of coding is evolving rapidly: from code assistants, to autonomous coding agents, and then to generating complete projects through natural language. Early LLM code benchmarks primarily focused on code generation accuracy, but these benchmarks have gradually become saturated. Benchmark saturation weakens their guiding role for LLMs. For example, HumanEval Pass@1 has reached 99.4% and MBPP 94.2%. Among various attempts to address benchmark saturation, approaches based on software engineering have stood out, but the saturation of existing software engineering benchmarks is rapidly increasing. To address this, we propose a new benchmark, Web-Bench, which contains 50 projects, each consisting of 20 tasks with sequential dependencies. The tasks implement project features in sequence, simulating real-world human development workflows. When designing Web-Bench, we aim to cover the foundational elements of Web development: Web Standards and Web Frameworks. Given the scale and complexity of these projects, which were designed by engineers with 5 to 10 years of experience, each presents a significant challenge. On average, a single project takes 4 to 8 hours for a senior engineer to complete. On our given benchmark agent (Web-Agent), SOTA (Claude 3.7 Sonnet) achieves only 25.1% Pass@1, significantly lower (better) than SWE-Bench's Verified (65.4%) and Full (33.8%) scores. Finally, we discuss that in any development field, Standards and Frameworks represent foundational knowledge and efficiency tools, respectively, and LLMs require optimization tailored to them.