Respond to Change with Constancy: Instruction-tuning with LLM for Non-I.I.D. Network Traffic Classification

📄 arXiv: 2505.20866v1 📥 PDF

作者: Xinjie Lin, Gang Xiong, Gaopeng Gou, Wenqi Dong, Jing Yu, Zhen Li, Wei Xia

分类: cs.CR, cs.AI, cs.NI

发布日期: 2025-05-27

备注: IEEE Transactions on Information Forensics and Security (TIFS) camera ready, 15 pages, 6 figures, 7 tables

DOI: 10.1109/TIFS.2025.3574971


💡 一句话要点

提出ETooL模型,利用LLM指令调优解决非独立同分布网络流量分类难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 加密流量分类 大型语言模型 指令调优 非独立同分布 网络安全

📋 核心要点

  1. 现有加密流量分类方法依赖封闭世界假设,难以适应真实网络流量的分布漂移问题。
  2. ETooL模型通过自监督指令调优,将大型语言模型与流量结构知识相结合,建立文本信息和流量交互的联系。
  3. 实验表明,ETooL在I.I.D.和O.O.D.场景下均显著提升了流量分类的F1分数,并验证了其在动态分布条件下的有效性。

📝 摘要(中文)

加密流量分类在网络安全中极具挑战性,因为它需要从与内容无关的流量数据中提取鲁棒的特征。现有方法面临关键问题:(i) 由封闭世界假设引起的分布漂移限制了对真实世界变化模式的适应性;(ii) 对标记数据的依赖限制了在数据稀缺或不可用情况下的适用性。大型语言模型(LLM)在提供各种任务的通用解决方案方面表现出卓越的潜力,并在各个专业领域取得了显著成功。然而,它们在流量分析中的有效性仍然受到适应流量领域独特要求的挑战的限制。本文提出了一种名为ETooL的新型流量表示模型,该模型通过自监督指令调优范式将LLM与流量结构知识相结合。该框架建立了文本信息和流量交互之间的联系。ETooL在监督和零样本流量分类任务中表现出更强的分类性能和卓越的泛化能力。值得注意的是,它在F1分数方面取得了显著的提高:APP53(I.I.D.)提高到93.19%(6.62%)和92.11%(4.19%),APP53(O.O.D.)提高到74.88%(18.17%)和72.13%(15.15%),ISCX-Botnet(O.O.D.)提高到95.03%(9.16%)和81.95%(12.08%)。此外,我们构建了NETD,一个旨在支持动态分布偏移的流量数据集,并使用它来验证ETooL在不同分布条件下的有效性。此外,我们评估了通过ETooL的指令调优方法实现的效率提升。

🔬 方法详解

问题定义:论文旨在解决加密流量分类中,现有方法难以适应真实世界网络流量分布漂移(非独立同分布,non-I.I.D.)的问题。现有方法依赖于封闭世界假设,并且对标记数据有较强的依赖性,限制了其在实际场景中的应用。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大泛化能力,并通过指令调优(Instruction Tuning)的方式,将LLM与流量结构知识相结合,从而使模型能够更好地理解和处理加密流量数据。通过建立文本信息和流量交互之间的联系,提升模型在分布漂移情况下的鲁棒性和泛化能力。

技术框架:ETooL框架主要包含以下几个阶段:1. 流量数据预处理:对原始流量数据进行清洗和格式化,提取关键特征。2. 指令生成:根据流量数据的特征和分类目标,生成相应的指令。3. LLM指令调优:使用生成的指令对LLM进行微调,使其能够理解和处理流量数据。4. 流量分类:使用微调后的LLM对加密流量进行分类。

关键创新:ETooL的关键创新在于将LLM引入到加密流量分类任务中,并采用自监督指令调优的方式,使LLM能够学习到流量数据的内在结构和语义信息。与传统方法相比,ETooL不需要大量的标记数据,并且能够更好地适应分布漂移的情况。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。但是,指令调优过程中的指令设计是至关重要的,需要根据具体的流量数据和分类目标进行精心设计。此外,LLM的选择和微调策略也会影响模型的性能。具体的技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ETooL模型在APP53(I.I.D.)数据集上F1分数提升了6.62%和4.19%,在APP53(O.O.D.)数据集上F1分数提升了18.17%和15.15%,在ISCX-Botnet(O.O.D.)数据集上F1分数提升了9.16%和12.08%。这些结果表明,ETooL在处理分布漂移问题方面具有显著优势。

🎯 应用场景

ETooL模型可应用于各种网络安全场景,例如入侵检测、恶意软件识别、流量异常检测等。该模型能够有效应对真实网络环境中流量分布漂移的问题,提高网络安全系统的鲁棒性和可靠性。未来,ETooL有望成为下一代网络安全解决方案的核心组成部分。

📄 摘要(原文)

Encrypted traffic classification is highly challenging in network security due to the need for extracting robust features from content-agnostic traffic data. Existing approaches face critical issues: (i) Distribution drift, caused by reliance on the closedworld assumption, limits adaptability to realworld, shifting patterns; (ii) Dependence on labeled data restricts applicability where such data is scarce or unavailable. Large language models (LLMs) have demonstrated remarkable potential in offering generalizable solutions across a wide range of tasks, achieving notable success in various specialized fields. However, their effectiveness in traffic analysis remains constrained by challenges in adapting to the unique requirements of the traffic domain. In this paper, we introduce a novel traffic representation model named Encrypted Traffic Out-of-Distribution Instruction Tuning with LLM (ETooL), which integrates LLMs with knowledge of traffic structures through a self-supervised instruction tuning paradigm. This framework establishes connections between textual information and traffic interactions. ETooL demonstrates more robust classification performance and superior generalization in both supervised and zero-shot traffic classification tasks. Notably, it achieves significant improvements in F1 scores: APP53 (I.I.D.) to 93.19%(6.62%) and 92.11%(4.19%), APP53 (O.O.D.) to 74.88%(18.17%) and 72.13%(15.15%), and ISCX-Botnet (O.O.D.) to 95.03%(9.16%) and 81.95%(12.08%). Additionally, we construct NETD, a traffic dataset designed to support dynamic distributional shifts, and use it to validate ETooL's effectiveness under varying distributional conditions. Furthermore, we evaluate the efficiency gains achieved through ETooL's instruction tuning approach.