Network Traffic Classification Using Machine Learning, Transformer, and Large Language Models

📄 arXiv: 2503.02141v1 📥 PDF

作者: Ahmad Antari, Yazan Abo-Aisheh, Jehad Shamasneh, Huthaifa I. Ashqar

分类: cs.LG, cs.CL, cs.CR

发布日期: 2025-03-04


💡 一句话要点

利用机器学习、Transformer和LLM进行网络流量分类,Transformer和XGBoost表现最佳。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络流量分类 机器学习 Transformer 大型语言模型 零样本学习 少样本学习 网络安全 深度学习

📋 核心要点

  1. 现有网络流量分类方法在处理复杂和新型流量时存在局限性,难以达到高精度。
  2. 探索使用Transformer和大型语言模型(LLM)进行网络流量分类,利用其强大的特征提取和泛化能力。
  3. 实验结果表明,Transformer和XGBoost模型表现最佳,GPT-4o和Gemini在少样本学习中也展现出潜力。

📝 摘要(中文)

本研究利用多种模型解决网络流量分类问题,将流量分为网页浏览、IPSec、备份和电子邮件等类别。我们从Arbor Edge Defender (AED) 设备收集了一个包含30959个观测值和19个特征的综合数据集。评估了多种模型,包括朴素贝叶斯、决策树、随机森林、梯度提升、XGBoost、深度神经网络 (DNN)、Transformer以及两个大型语言模型 (LLM),包括采用零样本和少样本学习的GPT-4o和Gemini。Transformer和XGBoost表现出最佳性能,分别实现了98.95%和97.56%的最高准确率。GPT-4o和Gemini在少样本学习中表现出良好的结果,与初始零样本性能相比,准确率显著提高。虽然Gemini Few-Shot和GPT-4o Few-Shot在Web和Email等类别中表现良好,但在IPSec和Backup等更复杂的类别中出现了错误分类。该研究强调了模型选择、微调以及训练数据大小和模型复杂性之间平衡对于实现可靠分类结果的重要性。

🔬 方法详解

问题定义:论文旨在解决网络流量分类问题,即将网络流量准确地划分到不同的应用类别(如Web、浏览、IPSec、备份、Email等)。现有方法在面对日益复杂和动态的网络环境时,分类精度和泛化能力面临挑战,尤其是在缺乏足够标注数据的情况下。

核心思路:论文的核心思路是探索利用深度学习模型,特别是Transformer和大型语言模型(LLM),来提升网络流量分类的性能。Transformer模型擅长捕捉序列数据中的长程依赖关系,而LLM则具备强大的语义理解和泛化能力,有望在少量样本下实现有效的流量分类。

技术框架:整体框架包括数据收集与预处理、模型训练与评估两个主要阶段。首先,从Arbor Edge Defender (AED) 设备收集网络流量数据,并提取19个相关特征。然后,分别训练和评估多种机器学习模型(如朴素贝叶斯、决策树、随机森林、XGBoost、DNN、Transformer)以及LLM(GPT-4o、Gemini),采用零样本和少样本学习策略。最后,比较不同模型的分类性能。

关键创新:论文的关键创新在于将Transformer和LLM引入网络流量分类领域,并探索了它们在零样本和少样本学习场景下的性能。这为解决标注数据不足的问题提供了一种新的思路,并为未来的研究方向提供了参考。

关键设计:论文中,Transformer模型的具体结构和参数设置未知。对于LLM,采用了零样本和少样本学习策略,即在没有或只有少量标注数据的情况下进行分类。具体使用的prompt工程和微调方法未知。损失函数和优化器等细节也未在摘要中提及。

📊 实验亮点

实验结果表明,Transformer模型取得了98.95%的最高准确率,XGBoost模型也达到了97.56%。GPT-4o和Gemini在少样本学习中表现出潜力,虽然在复杂类别(如IPSec和Backup)中存在误分类,但相比零样本学习,准确率有显著提升。

🎯 应用场景

该研究成果可应用于网络安全监控、流量管理和入侵检测等领域。通过准确分类网络流量,可以及时发现恶意流量,优化网络资源分配,提升网络安全防护能力。未来,该方法有望应用于智能网络管理和自动化安全响应系统。

📄 摘要(原文)

This study uses various models to address network traffic classification, categorizing traffic into web, browsing, IPSec, backup, and email. We collected a comprehensive dataset from Arbor Edge Defender (AED) devices, comprising of 30,959 observations and 19 features. Multiple models were evaluated, including Naive Bayes, Decision Tree, Random Forest, Gradient Boosting, XGBoost, Deep Neural Networks (DNN), Transformer, and two Large Language Models (LLMs) including GPT-4o and Gemini with zero- and few-shot learning. Transformer and XGBoost showed the best performance, achieving the highest accuracy of 98.95 and 97.56%, respectively. GPT-4o and Gemini showed promising results with few-shot learning, improving accuracy significantly from initial zero-shot performance. While Gemini Few-Shot and GPT-4o Few-Shot performed well in categories like Web and Email, misclassifications occurred in more complex categories like IPSec and Backup. The study highlights the importance of model selection, fine-tuning, and the balance between training data size and model complexity for achieving reliable classification results.