Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models
作者: Romy Fieblinger, Md Tanvirul Alam, Nidhi Rastogi
分类: cs.CR, cs.AI, cs.CL
发布日期: 2024-06-30
备注: 6th Workshop on Attackers and Cyber-Crime Operations, 12 pages, 1 figure, 9 tables
💡 一句话要点
利用知识图谱和大型语言模型提取可执行的网络威胁情报
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络威胁情报 大型语言模型 知识图谱 信息提取 提示工程
📋 核心要点
- 当前网络威胁情报分析面临从海量非结构化数据中提取有效信息的挑战,传统方法难以快速适应威胁演变。
- 论文提出利用大型语言模型和知识图谱相结合的方法,从CTI文本中自动提取三元组,构建结构化的威胁情报知识库。
- 实验结果表明,通过指导框架和微调优化的大型语言模型在信息提取方面表现优异,但大规模应用仍面临挑战。
📝 摘要(中文)
网络威胁不断演变,从非结构化的网络威胁情报(CTI)数据中提取可执行的见解对于指导网络安全决策至关重要。越来越多的组织,如微软、趋势科技和CrowdStrike,正在使用生成式AI来促进CTI提取。本文旨在利用大型语言模型(LLM)和知识图谱(KG)的进步来自动化提取可执行的CTI。我们探索了最先进的开源LLM的应用,包括Llama 2系列、Mistral 7B Instruct和Zephyr,用于从CTI文本中提取有意义的三元组。我们的方法评估了诸如提示工程、指导框架和微调等技术,以优化信息提取和结构化。提取的数据随后用于构建KG,提供威胁情报的结构化和可查询的表示。实验结果表明,我们的方法在提取相关信息方面是有效的,其中指导和微调显示出优于提示工程的性能。然而,虽然我们的方法在小规模测试中证明是有效的,但将LLM应用于大规模数据以进行KG构建和链接预测仍然存在挑战。
🔬 方法详解
问题定义:论文旨在解决从非结构化的网络威胁情报(CTI)文本中自动提取可执行信息的问题。现有方法,例如人工分析或基于规则的系统,效率低下且难以适应不断变化的威胁环境。这些方法无法有效处理大规模的CTI数据,并且难以发现隐藏在文本中的复杂关系。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解和生成能力,自动从CTI文本中提取实体和关系,构建知识图谱(KG)。KG提供了一种结构化的方式来表示威胁情报,从而可以进行高效的查询和推理,最终支持更明智的网络安全决策。
技术框架:该方法主要包含以下几个阶段:1) CTI文本预处理:对原始CTI文本进行清洗和格式化。2) 信息提取:使用LLM从预处理后的文本中提取三元组(实体1,关系,实体2)。论文探索了不同的LLM,包括Llama 2系列、Mistral 7B Instruct和Zephyr。3) 知识图谱构建:将提取的三元组存储到知识图谱中,形成威胁情报的结构化表示。4) 知识图谱查询与推理:利用KG进行威胁分析、风险评估和响应策略制定。
关键创新:论文的关键创新在于将大型语言模型应用于网络威胁情报的自动提取和知识图谱构建。与传统方法相比,LLM能够更好地理解自然语言文本,从而提取更准确和全面的威胁情报。此外,论文还探索了不同的技术来优化LLM的性能,包括提示工程、指导框架和微调。
关键设计:论文的关键设计包括:1) 提示工程:设计有效的提示语,引导LLM提取所需的信息。2) 指导框架:使用外部知识或规则来约束LLM的输出,提高提取的准确性。3) 微调:使用特定领域的CTI数据对LLM进行微调,使其更适应威胁情报提取任务。论文还评估了不同LLM的性能,并比较了不同优化技术的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过指导框架和微调优化的大型语言模型在信息提取方面表现优于提示工程。虽然论文没有提供具体的性能指标,但强调了指导和微调在提高信息提取准确性和完整性方面的有效性。论文指出,将LLM应用于大规模数据进行KG构建和链接预测仍然存在挑战,这为未来的研究方向提供了启示。
🎯 应用场景
该研究成果可应用于网络安全态势感知、威胁情报分析、漏洞管理和安全事件响应等领域。通过自动提取和结构化威胁情报,可以帮助安全分析师更快地识别和应对潜在威胁,提高网络安全防御能力。未来,该技术有望应用于大规模威胁情报分析和预测,为主动防御提供支持。
📄 摘要(原文)
Cyber threats are constantly evolving. Extracting actionable insights from unstructured Cyber Threat Intelligence (CTI) data is essential to guide cybersecurity decisions. Increasingly, organizations like Microsoft, Trend Micro, and CrowdStrike are using generative AI to facilitate CTI extraction. This paper addresses the challenge of automating the extraction of actionable CTI using advancements in Large Language Models (LLMs) and Knowledge Graphs (KGs). We explore the application of state-of-the-art open-source LLMs, including the Llama 2 series, Mistral 7B Instruct, and Zephyr for extracting meaningful triples from CTI texts. Our methodology evaluates techniques such as prompt engineering, the guidance framework, and fine-tuning to optimize information extraction and structuring. The extracted data is then utilized to construct a KG, offering a structured and queryable representation of threat intelligence. Experimental results demonstrate the effectiveness of our approach in extracting relevant information, with guidance and fine-tuning showing superior performance over prompt engineering. However, while our methods prove effective in small-scale tests, applying LLMs to large-scale data for KG construction and Link Prediction presents ongoing challenges.