Evaluating Tabular Representation Learning for Network Intrusion Detection

📄 arXiv: 2605.02519v1 📥 PDF

作者: Muhammad Usman Butt, Andreas Hotho, Daniel Schlör

分类: cs.LG, cs.CR

发布日期: 2026-05-04

备注: IEEE International Conference on Cyber Security and Resilience (2026)


💡 一句话要点

评估表格数据表示学习在网络入侵检测中的应用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 网络入侵检测 表格数据表示学习 NetFlow数据 自编码器 Transformer 异常检测 迁移学习

📋 核心要点

  1. 传统NIDS依赖手动特征工程,耗时且需领域知识,与现代机器学习自动学习特征表示的理念不符。
  2. 探索表格数据表示学习在NetFlow数据上的应用,旨在自动学习鲁棒特征表示,提升入侵检测性能。
  3. 系统评估了多种表示学习方法,发现数据集-模型依赖性强,监督学习优于无监督学习,迁移性能受数据集分布影响。

📝 摘要(中文)

传统的网络入侵检测系统(NIDS)通常依赖于手动特征工程从网络流量数据中提取有意义的模式。然而,这种方法需要领域专业知识,并且与现代机器学习和神经网络的广泛采用的原则相悖:模型本身应该直接从数据中学习有意义的表示。本文研究了表格数据表示学习技术是否可以通过自动学习NetFlow数据的鲁棒特征表示来提高入侵检测性能。本文对基准NetFlow数据集上的最先进的表示学习方法进行了系统评估,并与传统的自编码器和端到端Transformer基线进行了比较。我们使用监督分类器和无监督异常检测器评估学习到的表示,并对每种组合进行全面的超参数探索。结果表明存在强烈的数据集-模型依赖性,没有一种方法在所有场景中始终占优。对于监督分类,TabICL在CIDDS上实现了最佳性能,而自编码器紧随其后,并与端到端Transformer模型并列,获得了跨数据集的最佳平均排名。监督方法明显优于无监督异常检测方法,其中没有单一组合始终占优,因为最佳选择取决于数据集。跨数据集迁移实验表明,通过适当的方法和分类器选择,学习到的表示可以推广到不同的网络环境。然而,迁移性能因源-目标数据集组合而异,表明对网络环境之间的分布差异敏感。

🔬 方法详解

问题定义:现有的网络入侵检测系统依赖于人工特征工程,需要大量的领域知识和人工干预,难以适应不断变化的网络环境和新型攻击模式。此外,手动设计的特征可能无法捕捉到数据中隐藏的复杂关系,限制了检测性能的提升。

核心思路:本文的核心思路是利用表格数据表示学习技术,自动从NetFlow数据中学习到鲁棒且具有区分性的特征表示。通过将原始网络流量数据转换为低维、高信息量的向量表示,可以减少对人工特征工程的依赖,并提升入侵检测模型的泛化能力。

技术框架:本文的整体框架包括数据预处理、表示学习、模型训练和性能评估四个主要阶段。首先,对原始NetFlow数据进行清洗和转换,使其符合表示学习算法的输入要求。然后,使用多种表格数据表示学习方法(包括自编码器、Transformer和TabICL等)学习数据的特征表示。接着,使用监督分类器和无监督异常检测器对学习到的表示进行评估。最后,通过比较不同方法在不同数据集上的性能,分析其优缺点和适用场景。

关键创新:本文的关键创新在于系统性地评估了多种表格数据表示学习方法在网络入侵检测任务中的性能。通过对比不同方法在不同数据集上的表现,揭示了数据集-模型依赖性,为选择合适的表示学习方法提供了指导。此外,本文还探索了跨数据集迁移学习的可能性,验证了学习到的表示在不同网络环境下的泛化能力。

关键设计:在实验中,作者对每种表示学习方法和分类器/异常检测器组合进行了全面的超参数探索,以确保获得最佳性能。使用的损失函数包括均方误差(MSE)和交叉熵损失等。对于Transformer模型,作者采用了标准的encoder-decoder结构,并调整了embedding维度、层数和注意力头数等参数。对于TabICL,作者使用了对比学习的目标函数,并调整了温度系数和负样本数量等参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TabICL在CIDDS数据集上取得了最佳的监督分类性能,而自编码器与端到端Transformer模型在跨数据集的平均排名中并列第一。监督学习方法明显优于无监督异常检测方法。跨数据集迁移实验表明,学习到的表示在适当的方法和分类器选择下,可以推广到不同的网络环境,但性能受数据集分布差异的影响。

🎯 应用场景

该研究成果可应用于各种网络安全场景,例如企业网络安全监控、云安全防护和物联网设备安全。通过自动学习网络流量的特征表示,可以提高入侵检测系统的准确性和效率,减少对人工干预的依赖,并及时发现和阻止潜在的网络攻击。此外,该研究还可以为开发新型网络安全产品和服务提供技术支持。

📄 摘要(原文)

Classic Network Intrusion Detection Systems (NIDS) often rely on manual feature engineering to extract meaningful patterns from network traffic data. However, this approach requires domain expertise and runs counter to the widely adopted principle of modern machine learning and neural networks: that models themselves should learn meaningful representations directly from data. We investigate whether tabular representation learning techniques can improve intrusion detection performance by automatically learning robust feature representations for NetFlow data. This paper presents a systematic evaluation of state-of-the-art representation learning methods on benchmark NetFlow datasets, comparing against traditional autoencoders and end-to-end transformer baselines. We evaluate learned representations using both supervised classifiers and unsupervised anomaly detectors, with comprehensive hyperparameter exploration for each combination. Our results reveal strong dataset-model dependency, with no single approach consistently dominating across all scenarios. For supervised classification, TabICL achieves the best performance on CIDDS, while autoencoders follow closely and tie with end-to-end transformer models for the best average rank across datasets. Supervised approaches substantially outperform unsupervised anomaly detection methods, where no single combination consistently dominates as optimal choices depend on the dataset. Cross-dataset transfer experiments demonstrate that learned representations can generalize across network environments with appropriate method and classifier selection. However, transfer performance varies substantially depending on the source-target dataset combination, indicating sensitivity to distributional differences between network environments.