CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models

📄 arXiv: 2410.21060v2 📥 PDF

作者: Yutong Cheng, Osama Bajaber, Saimon Amanuel Tsegai, Dawn Song, Peng Gao

分类: cs.CR, cs.AI, cs.LG

发布日期: 2024-10-28 (更新: 2025-04-21)

备注: Accepted at 2025 IEEE European Symposium on Security and Privacy (Euro S&P)


💡 一句话要点

CTINexus:利用大语言模型自动构建网络威胁情报知识图谱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络威胁情报 知识图谱 大语言模型 上下文学习 网络安全

📋 核心要点

  1. 现有CTI知识提取方法缺乏灵活性和通用性,依赖固定规则或大量标注数据,难以适应快速变化的网络威胁和新的知识本体。
  2. CTINexus利用大语言模型的上下文学习能力,通过自动提示构建和优化,实现数据高效的CTI知识提取和高质量知识图谱构建。
  3. 实验结果表明,CTINexus在构建准确和完整的网络安全知识图谱方面显著优于现有方法,为动态威胁形势下的CTI分析提供了一种高效解决方案。

📝 摘要(中文)

网络威胁情报(CTI)报告中的文本描述,如安全文章和新闻,是关于网络威胁的重要知识来源,对于组织了解快速演变的威胁形势至关重要。然而,当前的CTI知识提取方法缺乏灵活性和通用性,常常导致不准确和不完整的知识提取。句法分析依赖于固定的规则和词典,而模型微调需要大量的标注数据集,这使得这两种范式都难以适应新的威胁和本体。为了弥合这一差距,我们提出了CTINexus,这是一个新颖的框架,利用大语言模型(LLM)的优化上下文学习(ICL),实现数据高效的CTI知识提取和高质量的网络安全知识图谱(CSKG)构建。与现有方法不同,CTINexus既不需要大量数据,也不需要参数调整,并且可以通过最少的标注示例适应各种本体。这通过以下方式实现:(1)精心设计的自动提示构建策略,通过最佳演示检索来提取各种网络安全实体和关系;(2)一种分层实体对齐技术,可以规范化提取的知识并消除冗余;(3)一种长距离关系预测技术,以进一步完成具有缺失链接的CSKG。我们使用从10个平台收集的150个真实世界CTI报告进行的广泛评估表明,CTINexus在构建准确和完整的CSKG方面显著优于现有方法,突出了其通过高效且适应性强的解决方案来改变动态威胁形势下的CTI分析的潜力。

🔬 方法详解

问题定义:现有网络威胁情报知识提取方法面临的主要问题是缺乏灵活性和通用性。传统的基于规则的方法依赖于固定的语法规则和词典,难以适应新的威胁类型和知识结构。而基于模型微调的方法则需要大量的标注数据,成本高昂且难以维护。这些方法在面对快速演变的威胁形势时,往往无法准确、完整地提取关键信息。

核心思路:CTINexus的核心思路是利用大语言模型(LLM)强大的上下文学习能力,通过精心设计的提示(Prompt)工程,让LLM在少量示例的引导下,自动提取网络威胁情报中的实体和关系。这种方法避免了对大量标注数据的依赖,并具有更好的泛化能力,能够适应新的威胁和知识结构。

技术框架:CTINexus框架主要包含三个模块:(1) 自动提示构建与最佳演示检索:该模块负责生成用于指导LLM进行知识提取的提示,并通过检索与当前输入最相关的示例来优化提示效果。(2) 分层实体对齐:该模块用于规范化提取的实体,消除冗余和歧义,确保知识图谱的质量。(3) 长距离关系预测:该模块用于预测知识图谱中缺失的链接,进一步完善知识图谱的完整性。

关键创新:CTINexus的关键创新在于其自动化的提示构建策略和最佳演示检索机制。传统方法需要人工设计提示,费时费力且效果难以保证。CTINexus通过算法自动生成提示,并根据输入动态选择最佳的演示示例,从而显著提高了知识提取的准确性和效率。此外,分层实体对齐和长距离关系预测进一步提升了知识图谱的质量。

关键设计:在自动提示构建方面,CTINexus采用了一种基于模板的方法,根据不同的实体和关系类型,自动填充模板中的关键词。在最佳演示检索方面,CTINexus使用了一种基于语义相似度的检索算法,选择与当前输入最相关的示例。在分层实体对齐方面,CTINexus使用了一种基于规则和机器学习相结合的方法,对实体进行规范化。在长距离关系预测方面,CTINexus使用了一种基于图神经网络的方法,预测知识图谱中缺失的链接。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CTINexus在150个真实世界CTI报告上的评估结果表明,其在构建准确和完整的CSKG方面显著优于现有方法。具体而言,CTINexus在实体识别、关系抽取和知识图谱完整性方面均取得了显著提升,证明了其在动态威胁形势下的高效性和适应性。

🎯 应用场景

CTINexus可应用于自动化网络威胁情报分析、安全事件响应、威胁预测和漏洞管理等领域。通过构建高质量的网络安全知识图谱,帮助安全分析师更好地理解威胁态势,快速识别潜在风险,并制定有效的防御策略。该研究成果有助于提升组织的网络安全防御能力,降低安全事件带来的损失。

📄 摘要(原文)

Textual descriptions in cyber threat intelligence (CTI) reports, such as security articles and news, are rich sources of knowledge about cyber threats, crucial for organizations to stay informed about the rapidly evolving threat landscape. However, current CTI knowledge extraction methods lack flexibility and generalizability, often resulting in inaccurate and incomplete knowledge extraction. Syntax parsing relies on fixed rules and dictionaries, while model fine-tuning requires large annotated datasets, making both paradigms challenging to adapt to new threats and ontologies. To bridge the gap, we propose CTINexus, a novel framework leveraging optimized in-context learning (ICL) of large language models (LLMs) for data-efficient CTI knowledge extraction and high-quality cybersecurity knowledge graph (CSKG) construction. Unlike existing methods, CTINexus requires neither extensive data nor parameter tuning and can adapt to various ontologies with minimal annotated examples. This is achieved through: (1) a carefully designed automatic prompt construction strategy with optimal demonstration retrieval for extracting a wide range of cybersecurity entities and relations; (2) a hierarchical entity alignment technique that canonicalizes the extracted knowledge and removes redundancy; (3) an long-distance relation prediction technique to further complete the CSKG with missing links. Our extensive evaluations using 150 real-world CTI reports collected from 10 platforms demonstrate that CTINexus significantly outperforms existing methods in constructing accurate and complete CSKG, highlighting its potential to transform CTI analysis with an efficient and adaptable solution for the dynamic threat landscape.