CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution

📄 arXiv: 2505.17107v1 📥 PDF

作者: Minghao Shao, Haoran Xi, Nanda Rani, Meet Udeshi, Venkata Sai Charan Putrevu, Kimberly Milner, Brendan Dolan-Gavitt, Sandeep Kumar Shukla, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique

分类: cs.CR, cs.AI, cs.LG, cs.MA

发布日期: 2025-05-21

🔗 代码/项目: GITHUB


💡 一句话要点

CRAKEN:基于知识的LLM网络安全Agent,提升漏洞检测与利用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 网络安全 知识库 漏洞检测 渗透测试 CTF MITRE ATT&CK

📋 核心要点

  1. 现有LLM Agent在网络安全任务中面临知识更新滞后和复杂任务规划能力不足的挑战。
  2. CRAKEN通过上下文分解、迭代知识检索和知识提示注入,将安全知识融入LLM Agent中。
  3. 实验表明,CRAKEN在CTF和MITRE ATT&CK技术评估中显著优于现有方法,提升了漏洞检测和利用能力。

📝 摘要(中文)

大型语言模型(LLM)Agent能够自动化网络安全任务,并适应不断变化的网络安全环境,无需重新设计。尽管LLM Agent已在夺旗(CTF)比赛中展示了网络安全能力,但它们存在两个关键限制:无法访问训练数据之外的最新网络安全专业知识,以及无法将新知识整合到复杂的任务规划中。基于知识的方法将技术理解融入到任务解决自动化中,可以解决这些限制。我们提出了CRAKEN,一个基于知识的LLM Agent框架,通过三个核心机制提高网络安全能力:任务关键信息的上下文分解、迭代的自我反思知识检索,以及将洞察转化为自适应攻击策略的知识提示注入。不同配置的综合评估表明,与先前的方法相比,CRAKEN在多阶段漏洞检测和利用方面更有效。我们可扩展的架构为将新的安全知识嵌入到LLM驱动的网络安全Agent系统中建立了新的方法。通过CTF题解的知识库,CRAKEN在NYU CTF Bench上获得了22%的准确率,比之前的工作提高了3%,并取得了最先进的结果。在MITRE ATT&CK技术的评估中,CRAKEN解决了比先前工作多25-30%的技术,证明了通过基于知识的执行提高了网络安全能力。我们将我们的框架开源,地址为https://github.com/NYU-LLM-CTF/nyuctf_agents_craken。

🔬 方法详解

问题定义:现有基于LLM的网络安全Agent难以有效利用最新的安全知识,导致在复杂漏洞检测和利用任务中表现不佳。它们通常依赖于训练数据中的知识,无法快速适应新的攻击模式和漏洞信息。此外,如何将这些知识有效地整合到任务规划中也是一个挑战。

核心思路:CRAKEN的核心思路是通过构建一个基于知识的LLM Agent框架,使其能够动态地访问、检索和利用最新的网络安全知识。通过将任务分解为上下文相关的子任务,并利用迭代的自我反思知识检索机制,CRAKEN能够更有效地利用知识库中的信息。知识提示注入则进一步指导LLM Agent生成自适应的攻击策略。

技术框架:CRAKEN的整体架构包含三个主要模块:1) 上下文分解模块,用于将复杂的网络安全任务分解为更小的、上下文相关的子任务;2) 迭代知识检索模块,该模块通过自我反思机制,迭代地从知识库中检索相关信息;3) 知识提示注入模块,该模块将检索到的知识转化为提示,指导LLM Agent生成攻击策略。整个流程是循环迭代的,Agent不断根据反馈调整策略。

关键创新:CRAKEN最重要的技术创新在于其将知识库与LLM Agent紧密结合的方式。与传统的LLM Agent相比,CRAKEN能够动态地访问和利用最新的网络安全知识,而无需重新训练模型。此外,迭代的自我反思知识检索机制和知识提示注入模块也显著提高了Agent的任务解决能力。

关键设计:CRAKEN的关键设计包括知识库的构建方式(使用CTF题解作为知识来源)、上下文分解的粒度、迭代知识检索的次数、以及知识提示注入的格式和强度。具体的参数设置和损失函数(如果存在)在论文中未明确说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

CRAKEN在NYU CTF Bench上取得了22%的准确率,比之前的工作提高了3%,达到了最先进水平。在MITRE ATT&CK技术的评估中,CRAKEN解决了比先前工作多25-30%的技术,证明了其在复杂网络安全任务中的优越性能。这些结果表明,基于知识的LLM Agent能够显著提升网络安全能力。

🎯 应用场景

CRAKEN可应用于自动化漏洞评估、渗透测试、安全事件响应等领域。通过集成最新的威胁情报和漏洞信息,CRAKEN能够帮助安全团队更快速、更有效地识别和应对网络安全威胁。该研究为构建更智能、更自适应的网络安全防御系统奠定了基础。

📄 摘要(原文)

Large Language Model (LLM) agents can automate cybersecurity tasks and can adapt to the evolving cybersecurity landscape without re-engineering. While LLM agents have demonstrated cybersecurity capabilities on Capture-The-Flag (CTF) competitions, they have two key limitations: accessing latest cybersecurity expertise beyond training data, and integrating new knowledge into complex task planning. Knowledge-based approaches that incorporate technical understanding into the task-solving automation can tackle these limitations. We present CRAKEN, a knowledge-based LLM agent framework that improves cybersecurity capability through three core mechanisms: contextual decomposition of task-critical information, iterative self-reflected knowledge retrieval, and knowledge-hint injection that transforms insights into adaptive attack strategies. Comprehensive evaluations with different configurations show CRAKEN's effectiveness in multi-stage vulnerability detection and exploitation compared to previous approaches. Our extensible architecture establishes new methodologies for embedding new security knowledge into LLM-driven cybersecurity agentic systems. With a knowledge database of CTF writeups, CRAKEN obtained an accuracy of 22% on NYU CTF Bench, outperforming prior works by 3% and achieving state-of-the-art results. On evaluation of MITRE ATT&CK techniques, CRAKEN solves 25-30% more techniques than prior work, demonstrating improved cybersecurity capabilities via knowledge-based execution. We make our framework open source to public https://github.com/NYU-LLM-CTF/nyuctf_agents_craken.