AttacKG+:Boosting Attack Knowledge Graph Construction with Large Language Models

📄 arXiv: 2405.04753v1 📥 PDF

作者: Yongheng Zhang, Tingwen Du, Yunshan Ma, Xiang Wang, Yi Xie, Guozheng Yang, Yuliang Lu, Ee-Chien Chang

分类: cs.CR, cs.AI

发布日期: 2024-05-08

备注: 20 pages, 5 figures


💡 一句话要点

AttacKG+:利用大语言模型提升攻击知识图谱构建

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 攻击知识图谱 大语言模型 网络威胁情报 自动化构建 安全事件分析

📋 核心要点

  1. 现有攻击知识图谱构建方法泛化性不足,难以适应多样知识类型,且依赖专家经验进行模型设计与调优。
  2. AttacKG+ 提出了一种基于大语言模型的全自动框架,通过指令提示和上下文学习构建攻击知识图谱。
  3. 实验表明,AttacKG+ 能够有效提取信息,满足威胁事件分析需求,并能直接促进攻击重建等下游安全实践。

📝 摘要(中文)

攻击知识图谱构建旨在将文本形式的网络威胁情报(CTI)报告转换为结构化表示,描绘网络攻击的演化轨迹。尽管之前的研究提出了各种构建攻击知识图谱的方法,但它们通常泛化能力有限,难以适应多样化的知识类型,并且需要模型设计和调优方面的专业知识。为了解决这些局限性,我们寻求利用大语言模型(LLM),因为它们在语言理解和零样本任务完成方面表现出卓越的能力,并在广泛的任务中取得了巨大的成功。因此,我们提出了一个完全自动的基于LLM的框架来构建攻击知识图谱,命名为AttacKG+。我们的框架由四个连续的模块组成:重写器、解析器、标识符和总结器,每个模块都通过指令提示和由LLM支持的上下文学习来实现。此外,我们升级了现有的攻击知识模式,并提出了一个全面的版本。我们将网络攻击表示为一个时间上展开的事件,每个时间步骤都封装了三层表示,包括行为图、MITRE TTP标签和状态摘要。广泛的评估表明:1)我们的公式无缝地满足了威胁事件分析中的信息需求,2)我们的构建框架能够有效且准确地提取AttacKG+定义的信息,3)我们的攻击图直接有益于下游安全实践,例如攻击重建。所有代码和数据集将在接受后发布。

🔬 方法详解

问题定义:现有攻击知识图谱构建方法在处理多样化的网络威胁情报报告时,泛化能力不足,难以适应不同类型的知识。此外,这些方法通常需要人工设计和调整模型,对专业知识要求较高,难以自动化和规模化应用。

核心思路:AttacKG+ 的核心思路是利用大语言模型(LLM)强大的语言理解和零样本学习能力,将非结构化的网络威胁情报报告自动转换为结构化的攻击知识图谱。通过精心设计的提示工程(Prompt Engineering)和上下文学习(In-Context Learning),使 LLM 能够理解并执行知识抽取任务。

技术框架:AttacKG+ 框架包含四个主要模块:1) 重写器(Rewriter):用于改写原始文本,使其更适合 LLM 处理。2) 解析器(Parser):负责从重写后的文本中解析出关键信息。3) 标识符(Identifier):识别实体和关系类型。4) 总结器(Summarizer):对提取的信息进行总结和整合,构建最终的攻击知识图谱。整个流程是自动化的,无需人工干预。

关键创新:AttacKG+ 的关键创新在于将大语言模型应用于攻击知识图谱的自动构建,并设计了一套完整的框架来实现这一目标。与传统方法相比,AttacKG+ 具有更强的泛化能力和自动化程度,无需针对特定类型的威胁情报进行模型训练和调优。此外,AttacKG+ 还升级了现有的攻击知识模式,提出了一个更全面的版本,能够更完整地描述网络攻击事件。

关键设计:AttacKG+ 的关键设计包括:1) 精心设计的指令提示(Instruction Prompting),引导 LLM 执行特定的知识抽取任务。2) 上下文学习(In-Context Learning),通过提供少量示例,帮助 LLM 更好地理解任务要求。3) 升级后的攻击知识模式,包含行为图、MITRE TTP 标签和状态摘要三个层次的表示,能够更全面地描述网络攻击事件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了 AttacKG+ 的有效性,表明其能够准确地从网络威胁情报报告中提取信息,并构建高质量的攻击知识图谱。实验结果还表明,AttacKG+ 构建的攻击图能够直接提升下游安全实践的性能,例如攻击重建的准确率。

🎯 应用场景

AttacKG+ 可应用于威胁情报分析、安全事件响应、攻击溯源和安全态势感知等领域。通过将非结构化的威胁情报转化为结构化的知识图谱,AttacKG+ 能够帮助安全分析师更快速、准确地理解攻击事件,并制定有效的防御策略。未来,AttacKG+ 有望成为自动化安全运营中心(SOC)的重要组成部分。

📄 摘要(原文)

Attack knowledge graph construction seeks to convert textual cyber threat intelligence (CTI) reports into structured representations, portraying the evolutionary traces of cyber attacks. Even though previous research has proposed various methods to construct attack knowledge graphs, they generally suffer from limited generalization capability to diverse knowledge types as well as requirement of expertise in model design and tuning. Addressing these limitations, we seek to utilize Large Language Models (LLMs), which have achieved enormous success in a broad range of tasks given exceptional capabilities in both language understanding and zero-shot task fulfillment. Thus, we propose a fully automatic LLM-based framework to construct attack knowledge graphs named: AttacKG+. Our framework consists of four consecutive modules: rewriter, parser, identifier, and summarizer, each of which is implemented by instruction prompting and in-context learning empowered by LLMs. Furthermore, we upgrade the existing attack knowledge schema and propose a comprehensive version. We represent a cyber attack as a temporally unfolding event, each temporal step of which encapsulates three layers of representation, including behavior graph, MITRE TTP labels, and state summary. Extensive evaluation demonstrates that: 1) our formulation seamlessly satisfies the information needs in threat event analysis, 2) our construction framework is effective in faithfully and accurately extracting the information defined by AttacKG+, and 3) our attack graph directly benefits downstream security practices such as attack reconstruction. All the code and datasets will be released upon acceptance.