Multi-Agent Penetration Testing AI for the Web

作者: Isaac David, Arthur Gervais

分类: cs.CR, cs.AI

发布日期: 2025-08-28

💡 一句话要点

提出MAPTA：一种基于多智能体和LLM的Web应用渗透测试AI系统

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 渗透测试 多智能体系统 大型语言模型 Web应用安全 漏洞评估

📋 核心要点

AI生成代码的普及导致安全漏洞激增，传统安全审计方法难以跟上快速迭代的开发速度。
MAPTA利用多智能体系统，结合大型语言模型和工具执行，实现自动化Web应用安全评估和漏洞验证。
实验表明，MAPTA在多种漏洞类型上表现出色，总成功率达到76.9%，且成本可控，具有实际应用价值。

📝 摘要（中文）

AI驱动的开发平台降低了软件创建的门槛，但也引发了安全审计的可扩展性危机。研究表明，高达40%的AI生成的代码包含漏洞，开发速度远远超过了彻底安全评估的能力。本文提出了MAPTA，一个用于自主Web应用程序安全评估的多智能体系统，它结合了大型语言模型编排、工具执行和端到端漏洞验证。在包含104个挑战的XBOW基准测试中，MAPTA实现了76.9%的总体成功率，在SSRF和错误配置漏洞上表现完美，在破坏的授权上成功率为83%，在注入攻击（包括服务器端模板注入（85%）和SQL注入（83%））上取得了不错的成绩。跨站脚本（57%）和盲SQL注入（0%）仍然具有挑战性。全面的成本分析表明，所有挑战的总成本为21.38美元，成功尝试的中位成本为0.073美元，而失败尝试的中位成本为0.357美元。成功与资源效率密切相关，从而能够在每个挑战大约40次工具调用或0.30美元时设置实用的提前停止阈值。MAPTA在真实世界中的发现具有重要意义，因为它扫描的GitHub存储库非常受欢迎（8K-70K星），并且MAPTA的平均运营成本较低，每次开源评估仅为3.67美元：MAPTA发现了关键漏洞，包括RCE、命令注入、秘密泄露和任意文件写入漏洞。相关发现已负责任地披露，目前有10项发现正在接受CVE审查。

🔬 方法详解

问题定义：当前Web应用安全测试面临的主要问题是，随着AI辅助代码生成的普及，代码中的漏洞数量急剧增加，而传统的安全审计方法无法有效地扩展以应对这种增长。现有方法，如人工渗透测试，成本高昂且耗时，无法满足快速迭代的开发需求。自动化工具虽然可以提高效率，但往往缺乏智能，难以发现复杂的漏洞，并且容易产生误报。

核心思路：MAPTA的核心思路是利用多智能体系统模拟渗透测试人员的行为，每个智能体负责不同的任务，例如漏洞扫描、漏洞利用和报告生成。通过大型语言模型（LLM）的编排，智能体可以协同工作，自动执行复杂的渗透测试流程。这种方法结合了自动化工具的效率和LLM的智能，可以更有效地发现和利用Web应用中的漏洞。

技术框架：MAPTA的整体架构包含以下几个主要模块：1) LLM编排器：负责规划渗透测试流程，并协调各个智能体的行动。2) 漏洞扫描器：使用各种自动化工具（如Nmap、Nikto等）扫描目标Web应用，发现潜在的漏洞。3) 漏洞利用器：尝试利用发现的漏洞，验证其真实性。4) 报告生成器：生成详细的渗透测试报告，包括发现的漏洞、利用方法和修复建议。整个流程是迭代的，漏洞利用的结果会反馈给LLM编排器，用于调整后续的测试策略。

关键创新：MAPTA最重要的技术创新点在于将大型语言模型（LLM）引入到渗透测试流程中。LLM可以理解自然语言描述的漏洞信息，并根据这些信息生成相应的漏洞利用代码。此外，LLM还可以根据测试结果动态调整测试策略，提高渗透测试的效率和准确性。与传统的自动化渗透测试工具相比，MAPTA具有更强的智能和适应性。

关键设计：MAPTA的关键设计包括：1) 使用Prompt Engineering来指导LLM生成高质量的漏洞利用代码。2) 设计了一种成本模型，用于评估不同测试策略的成本效益，并选择最优的测试策略。3) 实现了提前停止机制，当测试成本超过预设阈值时，自动停止测试，以避免浪费资源。4) 针对不同的漏洞类型，设计了不同的智能体，以提高测试的效率和准确性。

🖼️ 关键图片

📊 实验亮点

MAPTA在XBOW基准测试中取得了显著成果，总体成功率达到76.9%。在SSRF和错误配置漏洞上实现了100%的成功率，在破坏的授权和注入攻击（包括服务器端模板注入和SQL注入）上也取得了83%以上的成功率。此外，MAPTA的平均运营成本较低，每次开源评估仅为3.67美元。这些结果表明，MAPTA是一种高效且经济的Web应用安全评估工具。

🎯 应用场景

MAPTA可应用于各种Web应用程序的安全评估，包括开源项目、企业内部应用和第三方Web服务。它可以帮助开发者和安全团队快速发现和修复漏洞，提高Web应用的安全性。此外，MAPTA还可以用于安全研究，例如评估新型漏洞的危害程度和开发新的漏洞利用方法。其低成本和高效率的特点，使其特别适合大规模的自动化安全评估。

📄 摘要（原文）

AI-powered development platforms are making software creation accessible to a broader audience, but this democratization has triggered a scalability crisis in security auditing. With studies showing that up to 40% of AI-generated code contains vulnerabilities, the pace of development now vastly outstrips the capacity for thorough security assessment. We present MAPTA, a multi-agent system for autonomous web application security assessment that combines large language model orchestration with tool-grounded execution and end-to-end exploit validation. On the 104-challenge XBOW benchmark, MAPTA achieves 76.9% overall success with perfect performance on SSRF and misconfiguration vulnerabilities, 83% success on broken authorization, and strong results on injection attacks including server-side template injection (85%) and SQL injection (83%). Cross-site scripting (57%) and blind SQL injection (0%) remain challenging. Our comprehensive cost analysis across all challenges totals $21.38 with a median cost of $0.073 for successful attempts versus $0.357 for failures. Success correlates strongly with resource efficiency, enabling practical early-stopping thresholds at approximately 40 tool calls or $0.30 per challenge. MAPTA's real-world findings are impactful given both the popularity of the respective scanned GitHub repositories (8K-70K stars) and MAPTA's low average operating cost of $3.67 per open-source assessment: MAPTA discovered critical vulnerabilities including RCEs, command injections, secret exposure, and arbitrary file write vulnerabilities. Findings are responsibly disclosed, 10 findings are under CVE review.

Multi-Agent Penetration Testing AI for the Web

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理