Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation

📄 arXiv: 2401.00280v3 📥 PDF

作者: Reza Fayyazi, Rozhina Taghdimi, Shanchieh Jay Yang

分类: cs.CR, cs.LG

发布日期: 2023-12-30 (更新: 2024-07-22)

DOI: 10.1109/ACSACW65225.2024.00036


💡 一句话要点

利用检索增强生成提升TTP分析:探索大语言模型在网络安全中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络安全 威胁情报 TTP分析 大语言模型 检索增强生成

📋 核心要点

  1. 网络安全从业者理解MITRE ATT&CK框架中的TTPs面临挑战,因为该框架预设了专业知识和复杂的依赖关系。
  2. 该研究探索了如何利用小规模encoder-only模型和大规模decoder-only模型,通过监督微调和检索增强生成来理解和总结TTPs。
  3. 实验结果表明,使用检索增强生成(RAG)的decoder-only模型优于使用监督微调(SFT)的encoder-only模型,尤其是在RAG提取到直接相关上下文时。

📝 摘要(中文)

战术、技术和程序(TTPs)概述了攻击者利用漏洞的方法。由于预设的专业知识和复杂的依赖关系,网络安全从业人员可能难以理解MITRE ATT&CK框架中的TTPs。同时,大语言模型(LLMs)的进步导致了最近大量研究探索其在网络安全运营中的应用。然而,目前尚不清楚如何以有效和适当的方式使用LLMs,为网络安全等关键领域提供准确的响应。本文研究了如何更好地使用两种类型的LLMs:小规模的encoder-only模型(如RoBERTa)和较大的decoder-only模型(如GPT-3.5),来理解和总结TTPs以及网络攻击程序的预期目的(即战术)。本研究比较了encoder-only LLMs的监督微调(SFT)与decoder-only LLMs的检索增强生成(RAG)(无需微调)。SFT和RAG技术都旨在增强LLMs,为每个网络攻击程序提供相关的上下文。研究表明,使用RAG的decoder-only LLMs比使用SFT的encoder-only模型表现更好,特别是当RAG提取到直接相关的上下文时。Decoder-only模型的结果可能存在较低的精确率',但可以实现较高的召回率'。研究结果进一步强调了一个违反直觉的观察结果,即更通用的提示往往比那些更具体定制的提示能更好地预测网络攻击策略。

🔬 方法详解

问题定义:论文旨在解决网络安全从业人员难以理解和应用MITRE ATT&CK框架中的TTPs的问题。现有的TTPs解释方法依赖于人工专家,效率低且成本高。此外,直接使用大型语言模型(LLMs)进行TTP分析,由于缺乏领域知识和上下文信息,效果往往不佳。

核心思路:论文的核心思路是利用检索增强生成(RAG)技术,为大型语言模型(LLMs)提供相关的TTP上下文信息,从而提高LLMs理解和总结TTPs的能力。同时,论文还比较了RAG方法与监督微调(SFT)方法在TTP分析任务中的性能。通过RAG,模型可以从外部知识库中检索与当前TTP相关的文档,并将这些文档作为上下文输入到LLM中,从而提高LLM的推理能力。

技术框架:整体框架包括以下几个主要模块:1) TTP知识库构建:构建包含TTP描述、相关文档和元数据的知识库。2) 查询构建:根据输入的TTP描述,构建查询语句。3) 信息检索:使用查询语句从TTP知识库中检索相关的文档。4) 上下文增强:将检索到的文档作为上下文信息,与原始TTP描述一起输入到LLM中。5) TTP分析:LLM根据上下文信息,分析TTP的战术意图。

关键创新:论文的关键创新在于将检索增强生成(RAG)技术应用于TTP分析任务,并证明了RAG方法在decoder-only LLMs上的有效性。此外,论文还发现,更通用的提示往往比那些更具体定制的提示能更好地预测网络攻击策略,这为提示工程提供了一个新的视角。

关键设计:论文比较了两种LLM架构:encoder-only (RoBERTa) 和 decoder-only (GPT-3.5)。对于encoder-only模型,采用监督微调(SFT)方法,使用TTP数据进行微调。对于decoder-only模型,采用检索增强生成(RAG)方法,无需微调。RAG的关键设计包括:1) 知识库的构建方式;2) 查询语句的构建方法;3) 信息检索算法的选择;4) 上下文信息的融合方式。论文还探索了不同类型的提示对TTP分析结果的影响。

📊 实验亮点

实验结果表明,使用RAG的decoder-only LLMs在TTP分析任务中表现优于使用SFT的encoder-only模型。具体来说,RAG方法在召回率方面表现出色,能够有效地识别出与TTP相关的战术意图。此外,研究还发现,更通用的提示往往比那些更具体定制的提示能更好地预测网络攻击策略,这为提示工程提供了一个新的方向。

🎯 应用场景

该研究成果可应用于自动化威胁情报分析、安全事件响应和网络安全教育等领域。通过自动理解和总结TTPs,可以帮助安全分析师更快地识别和应对网络攻击。此外,该技术还可以用于构建智能安全助手,为安全从业人员提供实时的威胁情报和分析支持。未来,该研究可以扩展到其他网络安全领域,如漏洞分析和恶意代码检测。

📄 摘要(原文)

Tactics, Techniques, and Procedures (TTPs) outline the methods attackers use to exploit vulnerabilities. The interpretation of TTPs in the MITRE ATT&CK framework can be challenging for cybersecurity practitioners due to presumed expertise and complex dependencies. Meanwhile, advancements with Large Language Models (LLMs) have led to recent surge in studies exploring its uses in cybersecurity operations. It is, however, unclear how LLMs can be used in an efficient and proper way to provide accurate responses for critical domains such as cybersecurity. This leads us to investigate how to better use two types of LLMs: small-scale encoder-only (e.g., RoBERTa) and larger decoder-only (e.g., GPT-3.5) LLMs to comprehend and summarize TTPs with the intended purposes (i.e., tactics) of a cyberattack procedure. This work studies and compares the uses of supervised fine-tuning (SFT) of encoder-only LLMs vs. Retrieval Augmented Generation (RAG) for decoder-only LLMs (without fine-tuning). Both SFT and RAG techniques presumably enhance the LLMs with relevant contexts for each cyberattack procedure. Our studies show decoder-only LLMs with RAG achieves better performance than encoder-only models with SFT, particularly when directly relevant context is extracted by RAG. The decoder-only results could suffer low Precision' while achieving highRecall'. Our findings further highlight a counter-intuitive observation that more generic prompts tend to yield better predictions of cyberattack tactics than those that are more specifically tailored.