LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI

📄 arXiv: 2407.05194v1 📥 PDF

作者: Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

分类: cs.CR, cs.CL, cs.LG

发布日期: 2024-07-06


💡 一句话要点

LLMCloudHunter:利用LLM自动从云CTI中提取检测规则

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 云安全 威胁情报 威胁狩猎 大型语言模型 自动化检测

📋 核心要点

  1. 现有OS-CTI分析方法未能充分利用图像信息,且主要关注本地环境,忽略了云环境的威胁。
  2. LLMCloudHunter利用LLM从文本和图像OS-CTI数据中自动生成通用签名检测规则候选。
  3. 实验结果表明,该框架在API调用和IoC提取方面均取得了高精度和高召回率,且规则可成功转换为Splunk查询。

📝 摘要(中文)

随着网络攻击的数量和复杂性不断增加,威胁狩猎已成为主动安全的关键方面,能够在造成重大损害之前主动检测和缓解威胁。开源网络威胁情报(OS-CTI)是威胁狩猎人员的宝贵资源,但它通常以非结构化格式出现,需要进一步的人工分析。以往旨在自动化OS-CTI分析的研究存在局限性,因为(1)它们未能提供可操作的输出,(2)它们没有利用OS-CTI来源中的图像,以及(3)它们侧重于本地环境,忽略了云环境日益增长的重要性。为了解决这些差距,我们提出了LLMCloudHunter,这是一个新颖的框架,它利用大型语言模型(LLM)从文本和视觉OS-CTI数据中自动生成通用签名检测规则候选。我们使用12份带注释的真实云威胁报告评估了所提出的框架生成的规则的质量。结果表明,我们的框架在准确提取威胁行为者发出的API调用方面实现了92%的精度和98%的召回率,在IoC方面实现了99%的精度和98%的召回率。此外,99.18%的生成的检测规则候选已成功编译并转换为Splunk查询。

🔬 方法详解

问题定义:该论文旨在解决从非结构化的开源网络威胁情报(OS-CTI)中自动提取可操作的检测规则的问题,特别是针对云环境。现有方法主要存在三个痛点:一是无法提供直接可用的检测规则;二是忽略了OS-CTI中包含的图像信息;三是主要关注本地环境,缺乏对云环境威胁的有效分析。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解和生成能力,将非结构化的文本和图像OS-CTI数据转换为结构化的检测规则候选。通过LLM,可以自动识别威胁行为、提取关键的API调用和IoC(Indicators of Compromise),并生成可用于安全信息和事件管理(SIEM)系统的查询语句。

技术框架:LLMCloudHunter框架主要包含以下几个阶段:1. 数据收集:从各种开源渠道收集文本和图像形式的OS-CTI数据。2. 数据预处理:对文本数据进行清洗和标准化,对图像数据进行特征提取。3. LLM规则生成:使用LLM分析预处理后的数据,识别威胁行为,提取API调用和IoC,并生成检测规则候选。4. 规则验证与转换:验证生成的规则候选的有效性,并将其转换为特定SIEM系统(如Splunk)的查询语句。

关键创新:该论文的关键创新在于:1. 首次将LLM应用于云环境下的OS-CTI分析,实现自动化检测规则生成。2. 充分利用了OS-CTI中的图像信息,提升了威胁情报的分析能力。3. 生成的检测规则候选可以直接转换为SIEM系统的查询语句,具有很强的实用性。与现有方法相比,LLMCloudHunter能够更有效地从OS-CTI中提取有价值的威胁情报,并将其转化为可操作的安全措施。

关键设计:论文中没有详细描述LLM的具体选择和训练细节,以及图像特征提取的具体方法。但是,可以推测LLM的选择需要考虑其在自然语言理解、信息提取和代码生成方面的能力。图像特征提取可能使用了预训练的卷积神经网络(CNN)模型。规则验证阶段可能使用了基于规则的验证方法,或者通过模拟攻击来验证规则的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMCloudHunter在从云威胁报告中提取API调用方面实现了92%的精度和98%的召回率,在提取IoC方面实现了99%的精度和98%的召回率。此外,99.18%的生成的检测规则候选已成功编译并转换为Splunk查询,证明了该框架的有效性和实用性。

🎯 应用场景

LLMCloudHunter可应用于云安全运营中心(SOC),帮助安全分析师自动化威胁狩猎过程,快速识别和响应云环境中的安全威胁。该框架还可以用于构建自动化的威胁情报平台,为企业提供实时的威胁预警和防御建议。未来,该研究可以扩展到支持更多的云平台和SIEM系统,并集成更多的威胁情报来源。

📄 摘要(原文)

As the number and sophistication of cyber attacks have increased, threat hunting has become a critical aspect of active security, enabling proactive detection and mitigation of threats before they cause significant harm. Open-source cyber threat intelligence (OS-CTI) is a valuable resource for threat hunters, however, it often comes in unstructured formats that require further manual analysis. Previous studies aimed at automating OSCTI analysis are limited since (1) they failed to provide actionable outputs, (2) they did not take advantage of images present in OSCTI sources, and (3) they focused on on-premises environments, overlooking the growing importance of cloud environments. To address these gaps, we propose LLMCloudHunter, a novel framework that leverages large language models (LLMs) to automatically generate generic-signature detection rule candidates from textual and visual OSCTI data. We evaluated the quality of the rules generated by the proposed framework using 12 annotated real-world cloud threat reports. The results show that our framework achieved a precision of 92% and recall of 98% for the task of accurately extracting API calls made by the threat actor and a precision of 99% with a recall of 98% for IoCs. Additionally, 99.18% of the generated detection rule candidates were successfully compiled and converted into Splunk queries.