Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design

📄 arXiv: 2504.10112v2 📥 PDF

作者: Andreas Happe, Jürgen Cito

分类: cs.CR, cs.AI

发布日期: 2025-04-14 (更新: 2025-06-16)


💡 一句话要点

分析LLM驱动的渗透测试基准实践,为未来研究提供行动建议

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 渗透测试 基准测试 网络安全 评估指标

📋 核心要点

  1. 现有LLM渗透测试评估方法缺乏统一标准,测试平台、指标选择和分析方法各异,导致评估结果难以比较和复现。
  2. 该研究通过系统性地回顾和分析现有文献,总结了LLM驱动攻击评估的常见实践,并识别了其中的不足之处。
  3. 研究结果为未来LLM渗透测试评估提供了改进方向,包括扩展测试平台、建立基线以及采用更全面的评估指标。

📝 摘要(中文)

大型语言模型(LLM)已成为驱动渗透测试工具的强大方法。由于LLM的特性不透明,通常采用经验方法来分析其有效性。这种分析的质量高度依赖于所选择的测试平台、捕获的指标和采用的分析方法。本文分析了用于评估LLM驱动攻击的方法和基准实践,重点关注LLM在网络安全中的攻击性应用。我们回顾了19篇研究论文,详细介绍了18个原型及其各自的测试平台。我们详细介绍了我们的发现,并为未来的研究提供了可操作的建议,强调了扩展现有测试平台、创建基线以及包括全面的指标和定性分析的重要性。我们还注意到安全研究和实践之间的区别,表明基于CTF的挑战可能无法完全代表真实的渗透测试场景。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的渗透测试工具评估缺乏标准化和系统性方法的问题。现有方法在测试平台、评估指标和分析方法上存在差异,导致研究结果难以比较和复现,阻碍了该领域的进展。此外,CTF挑战与真实渗透测试场景存在差距,可能无法准确反映LLM在实际应用中的性能。

核心思路:论文的核心思路是通过对现有研究进行系统性的回顾和分析,识别LLM驱动渗透测试评估中的常见实践和不足之处,并基于此提出改进建议。通过分析现有测试平台、评估指标和分析方法,为未来的研究提供更可靠和可操作的基准。

技术框架:论文采用文献综述的方法,主要分为以下几个阶段: 1. 文献收集:收集了19篇研究论文,涵盖18个LLM驱动的渗透测试原型。 2. 实践分析:对这些论文中使用的测试平台、评估指标和分析方法进行详细分析。 3. 问题识别:识别现有评估实践中的不足之处,例如缺乏标准化的测试平台和评估指标。 4. 建议提出:基于分析结果,为未来的研究提出改进建议,包括扩展测试平台、建立基线和采用更全面的评估指标。

关键创新:论文的关键创新在于对LLM驱动渗透测试评估实践进行了系统性的分析和总结,并提出了具体的改进建议。与以往的研究相比,该论文更侧重于方法论的分析,而非提出新的攻击技术或模型。通过对现有实践的批判性评估,为未来的研究提供了更坚实的基础。

关键设计:论文的关键设计在于其分析框架,该框架涵盖了测试平台、评估指标和分析方法三个方面。通过对这三个方面的详细分析,论文能够全面地评估现有评估实践的优缺点。此外,论文还强调了区分安全研究和实践的重要性,并指出CTF挑战可能无法完全代表真实的渗透测试场景。

📊 实验亮点

该研究通过分析19篇论文中的18个原型,揭示了当前LLM驱动渗透测试评估实践的不足,例如测试平台的多样性和评估指标的局限性。研究强调了建立基线和采用更全面的评估指标的重要性,并建议未来的研究应更加关注真实渗透测试场景,而不仅仅是CTF挑战。这些发现为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于网络安全研究领域,指导研究人员设计更合理、更具代表性的LLM驱动渗透测试评估方案。通过采用标准化的测试平台和评估指标,可以提高研究结果的可比性和可复现性,促进该领域的快速发展。此外,该研究还可以帮助安全从业人员更好地理解LLM在渗透测试中的应用,并评估其潜在风险。

📄 摘要(原文)

Large Language Models (LLMs) have emerged as a powerful approach for driving offensive penetration-testing tooling. Due to the opaque nature of LLMs, empirical methods are typically used to analyze their efficacy. The quality of this analysis is highly dependent on the chosen testbed, captured metrics and analysis methods employed. This paper analyzes the methodology and benchmarking practices used for evaluating Large Language Model (LLM)-driven attacks, focusing on offensive uses of LLMs in cybersecurity. We review 19 research papers detailing 18 prototypes and their respective testbeds. We detail our findings and provide actionable recommendations for future research, emphasizing the importance of extending existing testbeds, creating baselines, and including comprehensive metrics and qualitative analysis. We also note the distinction between security research and practice, suggesting that CTF-based challenges may not fully represent real-world penetration testing scenarios.