PentestEval: Benchmarking LLM-based Penetration Testing with Modular and Stage-Level Design

📄 arXiv: 2512.14233v1 📥 PDF

作者: Ruozhao Yang, Mingfei Cheng, Gelei Deng, Tianwei Zhang, Junjie Wang, Xiaofei Xie

分类: cs.SE, cs.AI, cs.CR

发布日期: 2025-12-16

备注: 13 pages, 6 figures


💡 一句话要点

PentestEval:首个模块化、分阶段评估LLM渗透测试能力的综合基准

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 渗透测试 大型语言模型 基准测试 自动化 安全评估

📋 核心要点

  1. 传统渗透测试流程依赖人工,效率低且成本高,LLM在自动化方面潜力巨大,但现有方法缺乏任务分解和领域适配。
  2. PentestEval通过模块化设计,将渗透测试分解为六个阶段,并构建自动化评估流程,从而更全面地评估LLM的能力。
  3. 实验结果表明,现有LLM在渗透测试各阶段表现不佳,端到端成功率低,表明需要更强的结构化推理和模块化设计。

📝 摘要(中文)

渗透测试对于评估和加强系统安全性至关重要,但传统工作流程仍然高度依赖手动操作、专业知识,并且难以扩展。虽然大型语言模型(LLM)的最新进展为自动化提供了有希望的机会,但现有的应用依赖于简单的提示,缺乏任务分解或领域自适应,导致不可靠的黑盒行为,并且对模型在渗透测试各个阶段的能力的洞察有限。为了解决这个问题,我们推出了PentestEval,这是第一个全面的基准,用于评估LLM在六个分解的渗透测试阶段的能力:信息收集、弱点收集和过滤、攻击决策、漏洞利用生成和修订。PentestEval集成了专家注释的真实数据和一个完全自动化的评估流程,涵盖了12个现实的脆弱场景中的所有346个任务。我们对9个广泛使用的LLM进行的阶段性评估显示,总体性能较弱,并且在渗透测试工作流程的各个阶段存在明显的局限性。端到端管道的成功率仅为31%,并且现有的LLM驱动的系统(如PentestGPT、PentestAgent和VulnBot)也表现出类似的局限性,自主代理几乎完全失败。这些发现表明,自主渗透测试需要更强的结构化推理,其中模块化增强了每个单独的阶段并提高了整体性能。PentestEval为未来关于细粒度的阶段性评估的研究提供了基础基准,为更可靠的基于LLM的自动化铺平了道路。

🔬 方法详解

问题定义:现有渗透测试流程高度依赖人工,效率低下且难以扩展。虽然LLM展现出自动化潜力,但现有方法通常采用简单的prompting方式,缺乏对渗透测试任务的细粒度分解和领域知识的有效利用,导致LLM在渗透测试中的表现不稳定,难以提供可靠的自动化解决方案。

核心思路:PentestEval的核心思路是将渗透测试流程分解为多个明确定义的阶段,并针对每个阶段设计相应的评估任务和指标。通过这种模块化的方式,可以更清晰地了解LLM在不同阶段的能力,并针对性地改进LLM在渗透测试中的应用。同时,构建自动化的评估流程,可以大规模、高效地评估LLM的性能。

技术框架:PentestEval的技术框架主要包含以下几个模块:1) 渗透测试阶段分解:将渗透测试流程分解为信息收集、弱点收集与过滤、攻击决策、漏洞利用生成与修订等六个阶段。2) 任务构建:针对每个阶段,构建包含专家标注的ground truth的评估任务。3) 自动化评估流程:设计自动化的评估流程,可以自动执行LLM生成的渗透测试指令,并根据ground truth评估其性能。4) 性能指标:定义每个阶段的性能指标,用于量化评估LLM在该阶段的能力。

关键创新:PentestEval的关键创新在于其模块化和分阶段的评估设计。与以往将LLM视为黑盒的评估方法不同,PentestEval通过将渗透测试流程分解为多个阶段,可以更细粒度地评估LLM在不同阶段的能力,从而更好地了解LLM的优势和不足。此外,PentestEval还构建了大规模的评估数据集和自动化的评估流程,为LLM在渗透测试领域的应用研究提供了重要的基准。

关键设计:PentestEval的关键设计包括:1) 六个渗透测试阶段的划分,确保覆盖渗透测试的主要步骤。2) 针对每个阶段设计的评估任务,确保能够有效评估LLM在该阶段的能力。3) 自动化评估流程的设计,确保能够大规模、高效地评估LLM的性能。4) 性能指标的设计,确保能够量化评估LLM在每个阶段的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PentestEval对9个广泛使用的LLM进行了阶段性评估,结果表明,现有LLM在渗透测试各阶段表现普遍较弱,端到端管道的成功率仅为31%。此外,对PentestGPT、PentestAgent和VulnBot等现有LLM驱动的渗透测试系统的评估也显示出类似的局限性,自主代理几乎完全失败。这些结果突出了当前LLM在自主渗透测试方面的不足,并强调了结构化推理和模块化设计的重要性。

🎯 应用场景

PentestEval可用于评估和改进LLM在渗透测试领域的应用,例如自动化漏洞扫描、攻击路径规划、漏洞利用生成等。该基准可以帮助研究人员更好地了解LLM在渗透测试各个阶段的能力,并开发更有效的LLM驱动的渗透测试工具,从而提高系统安全性,降低安全风险。

📄 摘要(原文)

Penetration testing is essential for assessing and strengthening system security against real-world threats, yet traditional workflows remain highly manual, expertise-intensive, and difficult to scale. Although recent advances in Large Language Models (LLMs) offer promising opportunities for automation, existing applications rely on simplistic prompting without task decomposition or domain adaptation, resulting in unreliable black-box behavior and limited insight into model capabilities across penetration testing stages. To address this gap, we introduce PentestEval, the first comprehensive benchmark for evaluating LLMs across six decomposed penetration testing stages: Information Collection, Weakness Gathering and Filtering, Attack Decision-Making, Exploit Generation and Revision. PentestEval integrates expert-annotated ground truth with a fully automated evaluation pipeline across 346 tasks covering all stages in 12 realistic vulnerable scenarios. Our stage-level evaluation of 9 widely used LLMs reveals generally weak performance and distinct limitations across the stages of penetration-testing workflow. End-to-end pipelines reach only 31% success rate, and existing LLM-powered systems such as PentestGPT, PentestAgent, and VulnBot exhibit similar limitations, with autonomous agents failing almost entirely. These findings highlight that autonomous penetration testing demands stronger structured reasoning, where modularization enhances each individual stage and improves overall performance. PentestEval provides the foundational benchmark needed for future research on fine-grained, stage-level evaluation, paving the way toward more reliable LLM-based automation.