DoLLM: How Large Language Models Understanding Network Flow Data to Detect Carpet Bombing DDoS
作者: Qingyang Li, Yihang Zhang, Zhidong Jia, Yannan Hu, Lei Zhang, Jianrong Zhang, Yongming Xu, Yong Cui, Zongming Guo, Xinggong Zhang
分类: cs.NI, cs.AI, cs.CR
发布日期: 2024-05-13
💡 一句话要点
提出DoLLM,利用大语言模型检测地毯式DDoS攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 DDoS攻击检测 网络流量分析 地毯式攻击 零样本学习
📋 核心要点
- 传统DDoS防御方法难以有效应对低速率、多向量的地毯式DDoS攻击,需要新的检测方案。
- DoLLM将网络流数据转换为LLM可理解的序列,利用LLM的上下文理解能力提取流量特征。
- 实验表明,DoLLM在零样本和真实ISP数据上均显著提升了地毯式DDoS攻击的检测性能。
📝 摘要(中文)
本文探讨了大语言模型(LLM)理解非语言网络数据的能力,并将其应用于检测未知恶意流量。以地毯式DDoS攻击为例,展示了如何利用LLM在网络领域的强大能力。地毯式DDoS是一种近年来显著增加的新型DDoS攻击,严重威胁网络基础设施。它针对子网内的多个受害者IP,导致接入链路拥塞,并中断大量用户的网络服务。这种攻击具有低速率、多向量的特点,对传统的DDoS防御构成挑战。我们提出了DoLLM,一个利用开源LLM作为骨干的DDoS检测模型。通过将非上下文网络流重组为流序列,并将其作为token嵌入投影到LLM的语义空间,DoLLM利用LLM的上下文理解能力来提取整体网络环境中的流表示,从而提高DDoS检测性能。在公共数据集CIC-DDoS2019和来自国内Top-3 ISP的真实NetFlow跟踪数据上评估了DoLLM,结果表明DoLLM具有强大的检测能力。在零样本场景下,其F1得分提高了高达33.3%,在真实ISP跟踪数据中至少提高了20.6%。
🔬 方法详解
问题定义:论文旨在解决传统DDoS防御方法难以有效检测地毯式DDoS攻击的问题。地毯式DDoS攻击具有低速率、多向量的特点,针对多个受害者IP,导致网络拥塞,现有方法难以准确识别和防御此类攻击。
核心思路:论文的核心思路是将网络流数据转换为LLM可以理解的序列,利用LLM强大的上下文理解能力提取流量特征,从而提高地毯式DDoS攻击的检测性能。这种方法将网络流量分析问题转化为自然语言处理问题,充分利用了LLM在语义理解方面的优势。
技术框架:DoLLM的整体框架包括以下几个主要模块:1) 数据预处理:将原始网络流数据(例如NetFlow)进行清洗和格式化。2) 流序列构建:将非上下文的网络流数据重组为Flow-Sequences,每个序列代表一段时间内的网络流量模式。3) 嵌入生成:将Flow-Sequences投影到LLM的语义空间,生成token embeddings。4) LLM特征提取:利用LLM提取Flow-Sequences的上下文特征表示。5) DDoS检测:使用提取的特征进行DDoS攻击检测,例如使用分类器进行分类。
关键创新:DoLLM的关键创新在于将LLM应用于网络流量分析,特别是DDoS攻击检测。与传统方法不同,DoLLM不依赖于人工设计的特征,而是利用LLM自动学习流量特征,从而能够检测未知的恶意流量模式。此外,将网络流数据转换为LLM可理解的序列也是一个重要的创新点。
关键设计:论文中关键的设计包括:1) Flow-Sequence的构建方式:如何选择合适的窗口大小和滑动步长来构建Flow-Sequence,以捕捉流量模式的变化。2) LLM的选择和微调策略:选择合适的开源LLM作为骨干模型,并根据具体的网络流量数据进行微调,以提高模型的性能。3) 分类器的选择和训练:选择合适的分类器(例如支持向量机或神经网络)对LLM提取的特征进行分类,并使用合适的损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
DoLLM在CIC-DDoS2019数据集和真实ISP网络流量数据上进行了评估。在零样本场景下,DoLLM的F1得分提高了高达33.3%。在真实ISP跟踪数据中,DoLLM的F1得分至少提高了20.6%。实验结果表明,DoLLM具有强大的DDoS攻击检测能力,能够有效应对地毯式DDoS攻击。
🎯 应用场景
DoLLM可应用于各种网络安全场景,例如DDoS攻击防御、恶意流量检测、网络异常行为分析等。该研究的实际价值在于能够提高网络基础设施的安全性,减少DDoS攻击造成的损失。未来,DoLLM可以进一步扩展到其他类型的网络安全问题,例如入侵检测、漏洞挖掘等。
📄 摘要(原文)
It is an interesting question Can and How Large Language Models (LLMs) understand non-language network data, and help us detect unknown malicious flows. This paper takes Carpet Bombing as a case study and shows how to exploit LLMs' powerful capability in the networking area. Carpet Bombing is a new DDoS attack that has dramatically increased in recent years, significantly threatening network infrastructures. It targets multiple victim IPs within subnets, causing congestion on access links and disrupting network services for a vast number of users. Characterized by low-rates, multi-vectors, these attacks challenge traditional DDoS defenses. We propose DoLLM, a DDoS detection model utilizes open-source LLMs as backbone. By reorganizing non-contextual network flows into Flow-Sequences and projecting them into LLMs semantic space as token embeddings, DoLLM leverages LLMs' contextual understanding to extract flow representations in overall network context. The representations are used to improve the DDoS detection performance. We evaluate DoLLM with public datasets CIC-DDoS2019 and real NetFlow trace from Top-3 countrywide ISP. The tests have proven that DoLLM possesses strong detection capabilities. Its F1 score increased by up to 33.3% in zero-shot scenarios and by at least 20.6% in real ISP traces.