The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums

📄 arXiv: 2408.03354v3 📥 PDF

作者: Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-08-06 (更新: 2024-10-01)


💡 一句话要点

利用大型语言模型分析网络犯罪论坛中的网络威胁情报

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 网络威胁情报 网络犯罪论坛 信息提取 GPT-3.5-turbo

📋 核心要点

  1. 网络犯罪论坛包含大量威胁情报,但人工分析效率低,现有方法难以快速准确提取关键信息。
  2. 利用大型语言模型(LLM)理解和总结论坛对话,预测关键威胁情报变量,实现自动化威胁分析。
  3. 实验表明,基于GPT-3.5-turbo的LLM系统在CTI提取方面表现出色,平均准确率达96.23%,验证了LLM的潜力。

📝 摘要(中文)

大型语言模型(LLM)可用于分析来自网络犯罪论坛的网络威胁情报(CTI)数据,这些论坛包含关于新兴网络威胁的广泛信息和关键讨论。然而,目前为止,LLM 在此类关键任务中的准确性和效率尚未得到彻底评估。因此,本研究评估了一个基于 OpenAI GPT-3.5-turbo 模型构建的 LLM 系统在提取 CTI 信息方面的性能。为此,我们从三个网络犯罪论坛(XSS、Exploit_in 和 RAMP)中提取了 700 多个日常对话的随机样本,并指示 LLM 系统总结对话并预测 10 个关键 CTI 变量,例如大型组织和/或关键基础设施是否成为目标,仅使用简单的人类语言指令。然后,两位编码员审查了每个对话,并评估了 LLM 提取的信息是否准确。LLM 系统的表现良好,平均准确度为 96.23%,平均精确度为 90%,平均召回率为 88.2%。研究还发现了增强模型的各种方法,例如需要帮助 LLM 区分故事和过去事件,以及注意提示中的动词时态。尽管如此,这项研究的结果突出了使用 LLM 进行网络威胁情报的相关性。

🔬 方法详解

问题定义:本研究旨在解决从网络犯罪论坛中高效、准确地提取网络威胁情报(CTI)的问题。现有方法依赖人工分析,效率低下且难以处理海量数据。此外,现有自动化方法可能无法充分理解论坛中的复杂语境和细微差别,导致信息提取不准确。

核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,自动化地分析网络犯罪论坛中的对话,提取关键的CTI变量。通过简单的人类语言指令,引导LLM理解对话内容并预测相关信息,从而降低人工干预的需求。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据采集:从三个网络犯罪论坛(XSS、Exploit_in 和 RAMP)中随机抽取超过700个日常对话样本。2) LLM配置:使用OpenAI GPT-3.5-turbo模型作为基础LLM,并设计简单的人类语言指令,指导LLM总结对话内容并预测10个关键CTI变量。3) 人工标注:由两位编码员独立审查每个对话,并标注正确的CTI变量。4) 性能评估:将LLM的预测结果与人工标注结果进行比较,计算准确率、精确度和召回率等指标,评估LLM的性能。

关键创新:本研究的关键创新在于探索了使用通用LLM(GPT-3.5-turbo)在零样本(zero-shot)或少样本(few-shot)设置下,直接从网络犯罪论坛提取CTI信息的可行性。与需要大量标注数据进行微调的传统方法不同,本研究仅使用简单的人类语言指令,即可实现较高的CTI提取准确率。

关键设计:研究中关键的设计包括:1) CTI变量的选择:选择了10个关键的CTI变量,例如是否针对大型组织或关键基础设施,以及攻击类型等。2) 指令设计:设计了简单明了的人类语言指令,引导LLM理解对话内容并预测CTI变量。3) 性能评估指标:使用了准确率、精确度和召回率等常用的信息提取评估指标,全面评估LLM的性能。

📊 实验亮点

实验结果表明,基于GPT-3.5-turbo的LLM系统在网络犯罪论坛的CTI提取任务中表现出色,平均准确率达到96.23%,平均精确度为90%,平均召回率为88.2%。该结果验证了LLM在自动化威胁情报分析方面的巨大潜力,为安全领域的研究和应用提供了新的思路。

🎯 应用场景

该研究成果可应用于自动化网络威胁情报收集与分析,帮助安全分析师快速识别和响应潜在的网络攻击。通过自动监测网络犯罪论坛,及时发现新兴威胁和攻击趋势,提升企业和组织的网络安全防御能力。未来可扩展到其他类型的安全数据源,构建更全面的威胁情报平台。

📄 摘要(原文)

Large language models (LLMs) can be used to analyze cyber threat intelligence (CTI) data from cybercrime forums, which contain extensive information and key discussions about emerging cyber threats. However, to date, the level of accuracy and efficiency of LLMs for such critical tasks has yet to be thoroughly evaluated. Hence, this study assesses the performance of an LLM system built on the OpenAI GPT-3.5-turbo model [8] to extract CTI information. To do so, a random sample of more than 700 daily conversations from three cybercrime forums - XSS, Exploit_in, and RAMP - was extracted, and the LLM system was instructed to summarize the conversations and predict 10 key CTI variables, such as whether a large organization and/or a critical infrastructure is being targeted, with only simple human-language instructions. Then, two coders reviewed each conversation and evaluated whether the information extracted by the LLM was accurate. The LLM system performed well, with an average accuracy score of 96.23%, an average precision of 90% and an average recall of 88.2%. Various ways to enhance the model were uncovered, such as the need to help the LLM distinguish between stories and past events, as well as being careful with verb tenses in prompts. Nevertheless, the results of this study highlight the relevance of using LLMs for cyber threat intelligence.