Multi-Agent Penetration Testing AI for the Web

📄 arXiv: 2508.20816v1 📥 PDF

作者: Isaac David, Arthur Gervais

分类: cs.CR, cs.AI

发布日期: 2025-08-28


💡 一句话要点

提出MAPTA:一种基于多智能体和LLM的Web应用渗透测试AI系统

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 渗透测试 多智能体系统 大型语言模型 Web应用安全 漏洞评估

📋 核心要点

  1. AI生成代码的普及导致安全漏洞激增,传统安全审计方法难以跟上快速迭代的开发速度。
  2. MAPTA利用多智能体系统,结合大型语言模型和工具执行,实现自动化Web应用安全评估和漏洞验证。
  3. 实验表明,MAPTA在多种漏洞类型上表现出色,总成功率达到76.9%,且成本可控,具有实际应用价值。

📝 摘要(中文)

AI驱动的开发平台降低了软件创建的门槛,但也引发了安全审计的可扩展性危机。研究表明,高达40%的AI生成的代码包含漏洞,开发速度远远超过了彻底安全评估的能力。本文提出了MAPTA,一个用于自主Web应用程序安全评估的多智能体系统,它结合了大型语言模型编排、工具执行和端到端漏洞验证。在包含104个挑战的XBOW基准测试中,MAPTA实现了76.9%的总体成功率,在SSRF和错误配置漏洞上表现完美,在破坏的授权上成功率为83%,在注入攻击(包括服务器端模板注入(85%)和SQL注入(83%))上取得了不错的成绩。跨站脚本(57%)和盲SQL注入(0%)仍然具有挑战性。全面的成本分析表明,所有挑战的总成本为21.38美元,成功尝试的中位成本为0.073美元,而失败尝试的中位成本为0.357美元。成功与资源效率密切相关,从而能够在每个挑战大约40次工具调用或0.30美元时设置实用的提前停止阈值。MAPTA在真实世界中的发现具有重要意义,因为它扫描的GitHub存储库非常受欢迎(8K-70K星),并且MAPTA的平均运营成本较低,每次开源评估仅为3.67美元:MAPTA发现了关键漏洞,包括RCE、命令注入、秘密泄露和任意文件写入漏洞。相关发现已负责任地披露,目前有10项发现正在接受CVE审查。

🔬 方法详解

问题定义:当前Web应用安全测试面临的主要问题是,随着AI辅助代码生成的普及,代码中的漏洞数量急剧增加,而传统的安全审计方法无法有效地扩展以应对这种增长。现有方法,如人工渗透测试,成本高昂且耗时,无法满足快速迭代的开发需求。自动化工具虽然可以提高效率,但往往缺乏智能,难以发现复杂的漏洞,并且容易产生误报。

核心思路:MAPTA的核心思路是利用多智能体系统模拟渗透测试人员的行为,每个智能体负责不同的任务,例如漏洞扫描、漏洞利用和报告生成。通过大型语言模型(LLM)的编排,智能体可以协同工作,自动执行复杂的渗透测试流程。这种方法结合了自动化工具的效率和LLM的智能,可以更有效地发现和利用Web应用中的漏洞。

技术框架:MAPTA的整体架构包含以下几个主要模块:1) LLM编排器:负责规划渗透测试流程,并协调各个智能体的行动。2) 漏洞扫描器:使用各种自动化工具(如Nmap、Nikto等)扫描目标Web应用,发现潜在的漏洞。3) 漏洞利用器:尝试利用发现的漏洞,验证其真实性。4) 报告生成器:生成详细的渗透测试报告,包括发现的漏洞、利用方法和修复建议。整个流程是迭代的,漏洞利用的结果会反馈给LLM编排器,用于调整后续的测试策略。

关键创新:MAPTA最重要的技术创新点在于将大型语言模型(LLM)引入到渗透测试流程中。LLM可以理解自然语言描述的漏洞信息,并根据这些信息生成相应的漏洞利用代码。此外,LLM还可以根据测试结果动态调整测试策略,提高渗透测试的效率和准确性。与传统的自动化渗透测试工具相比,MAPTA具有更强的智能和适应性。

关键设计:MAPTA的关键设计包括:1) 使用Prompt Engineering来指导LLM生成高质量的漏洞利用代码。2) 设计了一种成本模型,用于评估不同测试策略的成本效益,并选择最优的测试策略。3) 实现了提前停止机制,当测试成本超过预设阈值时,自动停止测试,以避免浪费资源。4) 针对不同的漏洞类型,设计了不同的智能体,以提高测试的效率和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAPTA在XBOW基准测试中取得了显著成果,总体成功率达到76.9%。在SSRF和错误配置漏洞上实现了100%的成功率,在破坏的授权和注入攻击(包括服务器端模板注入和SQL注入)上也取得了83%以上的成功率。此外,MAPTA的平均运营成本较低,每次开源评估仅为3.67美元。这些结果表明,MAPTA是一种高效且经济的Web应用安全评估工具。

🎯 应用场景

MAPTA可应用于各种Web应用程序的安全评估,包括开源项目、企业内部应用和第三方Web服务。它可以帮助开发者和安全团队快速发现和修复漏洞,提高Web应用的安全性。此外,MAPTA还可以用于安全研究,例如评估新型漏洞的危害程度和开发新的漏洞利用方法。其低成本和高效率的特点,使其特别适合大规模的自动化安全评估。

📄 摘要(原文)

AI-powered development platforms are making software creation accessible to a broader audience, but this democratization has triggered a scalability crisis in security auditing. With studies showing that up to 40% of AI-generated code contains vulnerabilities, the pace of development now vastly outstrips the capacity for thorough security assessment. We present MAPTA, a multi-agent system for autonomous web application security assessment that combines large language model orchestration with tool-grounded execution and end-to-end exploit validation. On the 104-challenge XBOW benchmark, MAPTA achieves 76.9% overall success with perfect performance on SSRF and misconfiguration vulnerabilities, 83% success on broken authorization, and strong results on injection attacks including server-side template injection (85%) and SQL injection (83%). Cross-site scripting (57%) and blind SQL injection (0%) remain challenging. Our comprehensive cost analysis across all challenges totals $21.38 with a median cost of $0.073 for successful attempts versus $0.357 for failures. Success correlates strongly with resource efficiency, enabling practical early-stopping thresholds at approximately 40 tool calls or $0.30 per challenge. MAPTA's real-world findings are impactful given both the popularity of the respective scanned GitHub repositories (8K-70K stars) and MAPTA's low average operating cost of $3.67 per open-source assessment: MAPTA discovered critical vulnerabilities including RCEs, command injections, secret exposure, and arbitrary file write vulnerabilities. Findings are responsibly disclosed, 10 findings are under CVE review.