HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities

📄 arXiv: 2510.12200v1 📥 PDF

作者: Xiaoxue Ren, Penghao Jiang, Kaixin Li, Zhiyong Huang, Xiaoning Du, Jiaojiao Jiang, Zhenchang Xing, Jiamou Sun, Terry Yue Zhuo

分类: cs.CR, cs.CL

发布日期: 2025-10-14


💡 一句话要点

HackWorld:评估计算机使用Agent在利用Web应用漏洞方面的能力

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 计算机使用Agent Web应用漏洞 渗透测试 网络安全 漏洞利用 视觉交互 夺旗竞赛

📋 核心要点

  1. 现有渗透测试成本高昂且依赖专家,难以适应快速增长的Web应用生态,而语言模型Agent在网络安全领域展现潜力。
  2. HackWorld框架旨在系统评估计算机使用Agent(CUAs)通过视觉交互利用Web应用漏洞的能力,模拟真实攻击场景。
  3. 实验结果表明,现有CUAs在Web安全方面存在局限性,漏洞利用率低,安全意识不足,需要进一步提升。

📝 摘要(中文)

Web应用程序是网络攻击的主要目标,它们是访问关键服务和敏感数据的门户。传统的渗透测试成本高昂且需要专业知识,难以随着不断增长的Web生态系统进行扩展。虽然语言模型Agent在网络安全方面显示出潜力,但现代Web应用程序需要视觉理解、动态内容处理和多步骤交互,而这些只有计算机使用Agent(CUAs)才能执行。然而,它们通过图形界面发现和利用漏洞的能力在很大程度上仍未被探索。我们提出了HackWorld,这是第一个系统地评估CUAs通过视觉交互利用Web应用程序漏洞的能力的框架。与经过清理的基准不同,HackWorld包含来自11个框架和7种语言的36个真实世界的应用程序,具有真实的缺陷,如注入漏洞、身份验证绕过和不安全的输入处理。通过使用夺旗(CTF)设置,它测试了CUAs在导航复杂Web界面的同时识别和利用这些弱点的能力。对最先进的CUAs的评估揭示了令人担忧的趋势:利用率低于12%,网络安全意识低下。CUAs经常在多步骤攻击计划中失败,并且滥用安全工具。这些结果暴露了CUAs在Web安全环境中的当前局限性,并突出了开发更具安全意识的Agent的机会,这些Agent能够有效地进行漏洞检测和利用。

🔬 方法详解

问题定义:论文旨在解决计算机使用Agent(CUAs)在真实Web应用环境中,通过图形界面发现和利用安全漏洞能力不足的问题。现有渗透测试方法成本高昂,依赖人工,难以规模化应用。现有CUAs在处理复杂Web应用,特别是涉及视觉理解、动态内容和多步骤交互时,表现不佳。

核心思路:论文的核心思路是构建一个真实、复杂且具有挑战性的Web应用漏洞利用评估框架HackWorld。通过模拟真实世界的Web应用漏洞,并采用夺旗(CTF)的竞赛模式,来系统性地评估CUAs在漏洞发现和利用方面的能力。这种方法能够更全面地反映CUAs在实际网络安全场景中的表现。

技术框架:HackWorld框架包含以下主要组成部分:1) 36个真实Web应用,涵盖11个框架和7种编程语言,包含注入漏洞、认证绕过等真实漏洞;2) 夺旗(CTF)竞赛环境,模拟真实攻击场景;3) 评估指标,用于衡量CUAs的漏洞利用成功率和效率。CUAs通过与Web应用进行视觉交互,尝试发现并利用漏洞,最终目标是获取Flag。

关键创新:HackWorld的关键创新在于其真实性和复杂性。与以往的简化或人工设计的漏洞环境不同,HackWorld直接采用真实世界的Web应用,保留了其复杂的用户界面、动态内容和多步骤交互。这使得评估结果更具代表性和参考价值,能够更准确地反映CUAs在实际应用中的能力。

关键设计:HackWorld的关键设计包括:1) 多样化的Web应用选择,覆盖不同的框架和语言,以增加评估的全面性;2) 真实的漏洞类型,模拟实际攻击场景;3) 标准化的评估流程和指标,方便不同CUAs之间的比较;4) 灵活的配置选项,允许用户自定义评估参数和难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的CUAs在HackWorld上的漏洞利用率低于12%,表明其在真实Web应用漏洞利用方面存在显著不足。CUAs在多步骤攻击规划和安全工具使用方面表现不佳,暴露出其在网络安全意识方面的欠缺。这些结果为未来CUAs在Web安全领域的改进方向提供了重要参考。

🎯 应用场景

该研究成果可应用于自动化渗透测试、安全漏洞挖掘、安全意识提升等领域。通过HackWorld框架,可以更有效地评估和改进CUAs在Web安全方面的能力,从而降低人工渗透测试的成本,提高Web应用的安全防护水平。未来,该研究有望推动开发更智能、更安全的自动化Web安全工具。

📄 摘要(原文)

Web applications are prime targets for cyberattacks as gateways to critical services and sensitive data. Traditional penetration testing is costly and expertise-intensive, making it difficult to scale with the growing web ecosystem. While language model agents show promise in cybersecurity, modern web applications demand visual understanding, dynamic content handling, and multi-step interactions that only computer-use agents (CUAs) can perform. Yet, their ability to discover and exploit vulnerabilities through graphical interfaces remains largely unexplored. We present HackWorld, the first framework for systematically evaluating CUAs' capabilities to exploit web application vulnerabilities via visual interaction. Unlike sanitized benchmarks, HackWorld includes 36 real-world applications across 11 frameworks and 7 languages, featuring realistic flaws such as injection vulnerabilities, authentication bypasses, and unsafe input handling. Using a Capture-the-Flag (CTF) setup, it tests CUAs' capacity to identify and exploit these weaknesses while navigating complex web interfaces. Evaluation of state-of-the-art CUAs reveals concerning trends: exploitation rates below 12% and low cybersecurity awareness. CUAs often fail at multi-step attack planning and misuse security tools. These results expose the current limitations of CUAs in web security contexts and highlight opportunities for developing more security-aware agents capable of effective vulnerability detection and exploitation.