Cyber-Attack Technique Classification Using Two-Stage Trained Large Language Models

📄 arXiv: 2411.18755v1 📥 PDF

作者: Weiqiu You, Youngja Park

分类: cs.LG, cs.CL, cs.CR

发布日期: 2024-11-27


💡 一句话要点

提出一种基于两阶段训练的大语言模型网络攻击技术分类方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络攻击分类 威胁情报 大语言模型 两阶段训练 低资源学习

📋 核心要点

  1. 网络攻击信息通常以非结构化文本形式存在,安全分析师难以从中提取攻击技术。
  2. 提出一种两阶段训练方法,先用辅助数据增强训练,再用主要数据精细训练,提升分类性能。
  3. 实验结果表明,该方法在TRAM数据集上将Macro-F1提高了5-9个百分点,Micro-F1保持竞争力。

📝 摘要(中文)

理解与网络攻击相关的攻击模式对于理解攻击者的行为和实施正确的缓解措施至关重要。然而,关于新攻击的大部分信息通常以非结构化文本的形式呈现,这对安全分析师收集必要信息构成了重大挑战。本文提出了一个句子分类系统,该系统可以识别来自网络威胁情报(CTI)报告中自然语言句子描述的攻击技术。我们提出了一种利用具有相同标签的辅助数据来改进低资源网络攻击分类任务的新方法。该系统首先使用增强的训练数据训练模型,然后仅使用主要数据进行更多训练。我们使用TRAM数据和MITRE ATT&CK框架验证了我们的模型。实验表明,与TRAM数据集上的基线性能相比,我们的方法将Macro-F1提高了5到9个百分点,并保持了Micro-F1得分的竞争力。

🔬 方法详解

问题定义:论文旨在解决网络安全领域中,从非结构化的网络威胁情报(CTI)报告文本中自动识别和分类攻击技术的问题。现有方法在处理此类任务时,面临着数据量不足(低资源)的挑战,导致分类精度不高,难以有效帮助安全分析师理解攻击模式。

核心思路:论文的核心思路是利用辅助数据来增强模型的训练,从而提高在低资源情况下的分类性能。具体而言,采用了两阶段训练策略:首先,使用包含辅助数据的增强数据集进行预训练,使模型学习到更广泛的特征表示;然后,仅使用主要数据集进行微调,使模型更好地适应目标任务。

技术框架:整体框架包含数据预处理、模型训练和评估三个主要阶段。数据预处理阶段包括对CTI报告文本进行清洗、分词等操作,并构建辅助数据集。模型训练阶段采用两阶段训练策略,首先使用增强数据集进行预训练,然后使用主要数据集进行微调。评估阶段使用TRAM数据集和MITRE ATT&CK框架对模型性能进行评估。

关键创新:该方法的主要创新在于提出了两阶段训练策略,有效地利用了辅助数据来提升低资源网络攻击分类任务的性能。与传统的单阶段训练方法相比,该方法能够更好地利用有限的训练数据,学习到更鲁棒的特征表示。

关键设计:论文中没有明确说明具体的模型结构,但可以推断使用了基于Transformer的大语言模型。关键设计在于两阶段训练的策略,以及如何构建和利用辅助数据集。具体的参数设置和损失函数等细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在TRAM数据集上显著提升了网络攻击技术分类的性能。与基线方法相比,Macro-F1指标提高了5到9个百分点,表明该方法在提高分类准确率方面具有显著优势。同时,Micro-F1指标保持了竞争力,说明该方法在平衡不同类别之间的性能方面也表现良好。

🎯 应用场景

该研究成果可应用于自动化网络威胁情报分析、安全事件响应、攻击溯源等领域。通过自动识别和分类攻击技术,可以帮助安全分析师更快地理解攻击者的行为,制定更有效的防御策略,并提高安全运营效率。未来,该技术可进一步扩展到其他安全领域,例如恶意代码分析、漏洞挖掘等。

📄 摘要(原文)

Understanding the attack patterns associated with a cyberattack is crucial for comprehending the attacker's behaviors and implementing the right mitigation measures. However, majority of the information regarding new attacks is typically presented in unstructured text, posing significant challenges for security analysts in collecting necessary information. In this paper, we present a sentence classification system that can identify the attack techniques described in natural language sentences from cyber threat intelligence (CTI) reports. We propose a new method for utilizing auxiliary data with the same labels to improve classification for the low-resource cyberattack classification task. The system first trains the model using the augmented training data and then trains more using only the primary data. We validate our model using the TRAM data1 and the MITRE ATT&CK framework. Experiments show that our method enhances Macro-F1 by 5 to 9 percentage points and keeps Micro-F1 scores competitive when compared to the baseline performance on the TRAM dataset.