Hackers or Hallucinators? A Comprehensive Analysis of LLM-Based Automated Penetration Testing

📄 arXiv: 2604.05719v1 📥 PDF

作者: Jiaren Peng, Zeqin Li, Chang You, Yan Wang, Hanlin Sun, Xuan Tian, Shuqiao Zhang, Junyi Liu, Jianguo Zhao, Renyang Liu, Haoran Ou, Yuqiang Sun, Jiancheng Zhang, Yutong Jiao, Kunshu Song, Chao Zhang, Fan Shi, Hongda Sun, Rui Yan, Cheng Huang

分类: cs.CR, cs.AI, cs.SE

发布日期: 2026-04-07


💡 一句话要点

首个LLM驱动的自动化渗透测试框架的系统化知识与大规模评测

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化渗透测试 大型语言模型 网络安全 知识体系化 实证评估

📋 核心要点

  1. 现有自动化渗透测试框架缺乏系统架构分析和统一基准下的大规模对比评估,阻碍了该领域的发展。
  2. 本文提出了一种系统化的知识体系,深入分析了基于LLM的AutoPT框架的架构设计,并进行了全面的实证评估。
  3. 通过大规模实验,对13个开源AutoPT框架和2个基线框架进行了评估,为未来的研究提供了基准和方向。

📝 摘要(中文)

大型语言模型(LLM)的快速发展为自动化渗透测试(AutoPT)创造了新的机遇,涌现出大量旨在实现端到端自主攻击的框架。然而,尽管相关研究激增,但现有研究普遍缺乏系统性的架构分析和在统一基准下的大规模实证比较。因此,本文提出了第一个知识体系化(SoK),重点关注当前基于LLM的AutoPT框架的架构设计和全面的实证评估。在体系化层面,我们全面回顾了现有框架在六个维度上的设计:代理架构、代理计划、代理记忆、代理执行、外部知识和基准。在实证层面,我们使用统一的基准对13个具有代表性的开源AutoPT框架和2个基线框架进行了大规模实验。实验总共消耗了超过100亿个token,并生成了超过1500个执行日志,这些日志由一个由15名以上网络安全专家组成的小组进行了为期四个月的手动审查和分析。通过调查这个快速发展领域的最新进展,我们为研究人员提供了一个结构化的分类法来理解现有的基于LLM的AutoPT框架和一个大规模的实证基准,以及未来研究的有希望的方向。

🔬 方法详解

问题定义:论文旨在解决基于LLM的自动化渗透测试框架缺乏系统性分析和统一评估标准的问题。现有方法通常是针对特定场景或漏洞设计的,缺乏通用性和可比性,难以评估不同框架的优劣,阻碍了该领域的健康发展。此外,现有研究缺乏对框架内部架构的深入理解,难以指导框架的优化和改进。

核心思路:论文的核心思路是通过构建一个系统化的知识体系(SoK),对现有基于LLM的AutoPT框架进行全面的架构分析,并设计一个统一的基准进行大规模的实证评估。通过对框架的六个关键维度(代理架构、代理计划、代理记忆、代理执行、外部知识和基准)进行分析,可以深入理解不同框架的设计思想和优缺点。通过统一的基准测试,可以客观地评估不同框架的性能,为研究人员提供参考。

技术框架:论文的技术框架主要包括两个部分:知识体系化(SoK)和实证评估。在知识体系化方面,论文对现有框架的六个关键维度进行了深入分析,并提出了一个结构化的分类法。在实证评估方面,论文构建了一个统一的基准,并对13个开源AutoPT框架和2个基线框架进行了大规模实验。实验结果包括执行日志、性能指标等,并由专家团队进行了人工分析。

关键创新:论文的主要创新在于提出了第一个针对基于LLM的AutoPT框架的系统化知识体系(SoK)和大规模实证评估。该SoK提供了一个结构化的框架,用于理解和比较不同的AutoPT框架。大规模实证评估提供了一个统一的基准,用于客观地评估不同框架的性能。

关键设计:论文的关键设计包括六个维度的架构分析框架(代理架构、代理计划、代理记忆、代理执行、外部知识和基准)和统一的实验基准。实验基准包括多种类型的漏洞和攻击场景,以及详细的评估指标。此外,论文还强调了人工分析的重要性,通过专家团队对实验结果进行人工审查,可以更准确地评估框架的性能。

📊 实验亮点

论文通过大规模实验,对13个开源AutoPT框架和2个基线框架进行了评估,总共消耗了超过100亿个token,并生成了超过1500个执行日志。实验结果表明,不同框架在不同漏洞和攻击场景下的性能差异显著,为研究人员提供了宝贵的参考信息。此外,人工分析结果也揭示了现有框架的一些局限性,为未来的研究方向提供了启示。

🎯 应用场景

该研究成果可应用于网络安全教育、渗透测试工具开发和安全策略制定等领域。通过系统化的知识体系和统一的评估基准,可以帮助研究人员更好地理解和改进现有的AutoPT框架,开发更高效、更智能的自动化渗透测试工具,并为企业和组织提供更有效的安全防护策略。

📄 摘要(原文)

The rapid advancement of Large Language Models (LLMs) has created new opportunities for Automated Penetration Testing (AutoPT), spawning numerous frameworks aimed at achieving end-to-end autonomous attacks. However, despite the proliferation of related studies, existing research generally lacks systematic architectural analysis and large-scale empirical comparisons under a unified benchmark. Therefore, this paper presents the first Systematization of Knowledge (SoK) focusing on the architectural design and comprehensive empirical evaluation of current LLM-based AutoPT frameworks. At systematization level, we comprehensively review existing framework designs across six dimensions: agent architecture, agent plan, agent memory, agent execution, external knowledge, and benchmarks. At empirical level, we conduct large-scale experiments on 13 representative open-source AutoPT frameworks and 2 baseline frameworks utilizing a unified benchmark. The experiments consumed over 10 billion tokens in total and generated more than 1,500 execution logs, which were manually reviewed and analyzed over four months by a panel of more than 15 researchers with expertise in cybersecurity. By investigating the latest progress in this rapidly developing field, we provide researchers with a structured taxonomy to understand existing LLM-based AutoPT frameworks and a large-scale empirical benchmark, along with promising directions for future research.