CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities

作者: Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang

分类: cs.CR, cs.AI

发布日期: 2025-03-21 (更新: 2025-06-24)

备注: 15 pages, 4 figures, 5 tables

💡 一句话要点

CVE-Bench：评估AI Agent利用真实Web应用漏洞能力的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 网络安全 漏洞利用 基准测试 Web应用安全

📋 核心要点

现有Web应用漏洞利用评估基准抽象程度高或覆盖范围不足，难以反映真实威胁。
CVE-Bench构建了一个基于真实CVE漏洞的沙箱环境，模拟真实场景评估LLM Agent的攻击能力。
实验结果表明，当前最先进的Agent框架能够成功利用约13%的漏洞，揭示了潜在安全风险。

📝 摘要（中文）

大型语言模型（LLM）Agent自主发起网络攻击的能力日益增强，对现有应用构成重大威胁。这种风险的增长凸显了对真实世界基准测试的迫切需求，以评估LLM Agent利用Web应用漏洞的能力。然而，现有的基准测试存在不足，因为它们仅限于抽象的夺旗竞赛或缺乏全面的覆盖范围。构建真实世界漏洞的基准测试既需要重现漏洞利用的专业知识，也需要评估不可预测威胁的系统方法。为了应对这一挑战，我们推出了CVE-Bench，这是一个基于关键严重性通用漏洞披露的真实网络安全基准。在CVE-Bench中，我们设计了一个沙箱框架，使LLM Agent能够在模拟真实世界条件的情景中利用易受攻击的Web应用程序，同时有效地评估其漏洞利用。我们的评估表明，最先进的Agent框架最多可以解决13%的漏洞。

🔬 方法详解

问题定义：论文旨在解决如何有效评估大型语言模型（LLM）Agent在真实世界中利用Web应用漏洞能力的问题。现有基准测试的痛点在于，它们要么过于抽象（如CTF竞赛），要么缺乏对真实漏洞的全面覆盖，无法准确反映LLM Agent构成的实际安全威胁。

核心思路：论文的核心思路是构建一个基于真实世界漏洞的基准测试环境，即CVE-Bench。该基准测试环境允许LLM Agent在模拟真实场景的沙箱中与易受攻击的Web应用进行交互，并提供有效的评估机制来衡量其漏洞利用能力。通过这种方式，可以更准确地评估LLM Agent对真实Web应用的潜在威胁。

技术框架：CVE-Bench的技术框架主要包含以下几个关键模块：1) 漏洞Web应用：收集并部署包含真实CVE漏洞的Web应用；2) 沙箱环境：创建一个隔离的沙箱环境，模拟真实的网络环境，防止漏洞利用对外部系统造成影响；3) Agent接口：提供与LLM Agent交互的接口，允许Agent发送请求、接收响应并执行操作；4) 评估模块：自动评估Agent的漏洞利用尝试，并生成详细的报告，包括成功利用的漏洞、利用方法和所需时间。

关键创新：CVE-Bench的关键创新在于其基于真实CVE漏洞的基准测试设计。与以往的抽象基准测试不同，CVE-Bench直接使用真实世界的漏洞，从而更准确地反映了LLM Agent在实际应用中可能遇到的安全挑战。此外，CVE-Bench的沙箱环境和评估模块也为LLM Agent的漏洞利用能力评估提供了更可靠和全面的方法。

关键设计：CVE-Bench的关键设计包括：1) 漏洞选择：选择具有高危等级的CVE漏洞，以确保基准测试的实用性和代表性；2) 沙箱配置：配置沙箱环境以模拟真实的网络拓扑和应用配置，包括防火墙、负载均衡器等；3) 评估指标：定义清晰的评估指标，如漏洞利用成功率、利用时间、所需步骤等，以便对不同Agent的性能进行比较；4) Agent接口设计：设计易于使用的Agent接口，允许Agent通过API调用与Web应用进行交互，并提供必要的反馈信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，目前最先进的LLM Agent框架在CVE-Bench基准测试中能够成功利用约13%的真实Web应用漏洞。这一结果凸显了LLM Agent在网络安全领域构成的潜在威胁，并强调了开发更强大的防御机制的必要性。此外，实验还揭示了不同Agent在漏洞利用能力方面的差异，为Agent的改进提供了有价值的参考。

🎯 应用场景

CVE-Bench可用于评估和改进LLM Agent的网络安全能力，帮助开发者构建更安全的AI系统。安全研究人员可以利用该基准测试来识别LLM Agent的潜在安全漏洞，并开发相应的防御机制。此外，CVE-Bench还可以用于培训网络安全专业人员，提高他们应对AI驱动攻击的能力。未来，该基准测试可以扩展到其他类型的应用和漏洞，为更广泛的网络安全研究提供支持。

📄 摘要（原文）

Large language model (LLM) agents are increasingly capable of autonomously conducting cyberattacks, posing significant threats to existing applications. This growing risk highlights the urgent need for a real-world benchmark to evaluate the ability of LLM agents to exploit web application vulnerabilities. However, existing benchmarks fall short as they are limited to abstracted Capture the Flag competitions or lack comprehensive coverage. Building a benchmark for real-world vulnerabilities involves both specialized expertise to reproduce exploits and a systematic approach to evaluating unpredictable threats. To address this challenge, we introduce CVE-Bench, a real-world cybersecurity benchmark based on critical-severity Common Vulnerabilities and Exposures. In CVE-Bench, we design a sandbox framework that enables LLM agents to exploit vulnerable web applications in scenarios that mimic real-world conditions, while also providing effective evaluation of their exploits. Our evaluation shows that the state-of-the-art agent framework can resolve up to 13% of vulnerabilities.

CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理