Self-Supervised Learning of Graph Representations for Network Intrusion Detection
作者: Lorenzo Guerra, Thomas Chapuis, Guillaume Duc, Pavlo Mozharovskyi, Van-Tam Nguyen
分类: cs.LG, cs.CR
发布日期: 2025-09-20 (更新: 2025-12-20)
备注: Accepted at NeurIPS 2025
💡 一句话要点
提出GraphIDS,通过自监督图表示学习进行网络入侵检测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 网络入侵检测 图神经网络 自监督学习 异常检测 Transformer 图表示学习
📋 核心要点
- 现有网络入侵检测方法通常将表示学习与异常检测分离,导致学习到的嵌入表示对识别攻击的效用有限。
- GraphIDS通过自监督学习统一表示学习和异常检测,利用掩码自编码器学习正常通信模式的局部图表示。
- 在NetFlow基准测试中,GraphIDS的PR-AUC高达99.98%,宏F1分数高达99.61%,性能显著优于现有基线方法。
📝 摘要(中文)
网络流量中的入侵检测是一项具有挑战性的任务,尤其是在有限的监督和不断演变的攻击模式下。虽然最近的研究利用图神经网络进行网络入侵检测,但它们通常将表示学习与异常检测分离,限制了嵌入在识别攻击方面的效用。我们提出了GraphIDS,一种自监督入侵检测模型,它通过掩码自编码器学习正常通信模式的局部图表示,从而统一了这两个阶段。一个归纳图神经网络将每个流嵌入其局部拓扑上下文,以捕获典型的网络行为,而一个基于Transformer的编码器-解码器重建这些嵌入,通过自注意力隐式地学习全局共现模式,而不需要显式的位置信息。在推理过程中,具有异常高重建误差的流被标记为潜在的入侵。这种端到端框架确保嵌入直接针对下游任务进行优化,从而促进恶意流量的识别。在不同的NetFlow基准测试中,GraphIDS实现了高达99.98%的PR-AUC和99.61%的宏F1分数,比基线提高了5-25个百分点。
🔬 方法详解
问题定义:网络入侵检测旨在识别网络流量中的恶意行为。现有方法,特别是基于图神经网络的方法,通常将图表示学习和异常检测作为两个独立的步骤进行处理。这种分离导致学习到的图嵌入可能无法很好地适应下游的异常检测任务,从而降低了检测性能。此外,现有方法难以适应不断演变的攻击模式。
核心思路:GraphIDS的核心思路是通过自监督学习,将图表示学习和异常检测统一到一个端到端的框架中。它利用掩码自编码器学习正常网络通信模式的局部图表示,并使用重建误差作为异常检测的指标。通过这种方式,模型能够直接学习对异常检测有用的图嵌入,并能够更好地适应新的攻击模式。
技术框架:GraphIDS的整体框架包括以下几个主要模块:1) 图构建模块:将网络流量数据构建成图结构,其中节点表示网络流,边表示流之间的关系。2) 图神经网络(GNN)嵌入模块:使用归纳GNN将每个流嵌入其局部拓扑上下文,以捕获典型的网络行为。3) 基于Transformer的编码器-解码器模块:该模块负责重建GNN嵌入,通过自注意力机制学习全局共现模式。4) 异常检测模块:计算每个流的重建误差,并将具有异常高重建误差的流标记为潜在的入侵。
关键创新:GraphIDS的关键创新在于其端到端的自监督学习框架,该框架将图表示学习和异常检测统一起来。通过使用掩码自编码器和Transformer架构,模型能够有效地学习正常网络通信模式的局部和全局表示,并利用重建误差进行异常检测。此外,该模型是归纳的,可以泛化到未见过的网络流量。
关键设计:GraphIDS的关键设计包括:1) 使用掩码自编码器进行自监督学习,迫使模型学习有意义的图表示。2) 使用Transformer架构学习全局共现模式,而无需显式的位置信息。3) 使用重建误差作为异常检测的指标,简单有效。4) 图神经网络的具体选择(例如,GCN、GraphSAGE)以及Transformer的层数、注意力头数等超参数需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
GraphIDS在多个NetFlow基准测试中取得了显著的性能提升。例如,在某些数据集上,GraphIDS的PR-AUC达到了99.98%,宏F1分数达到了99.61%,比现有基线方法提高了5-25个百分点。这些结果表明GraphIDS是一种有效的网络入侵检测方法。
🎯 应用场景
GraphIDS可应用于各种网络安全场景,例如企业网络安全监控、云安全、物联网安全等。它可以帮助安全分析师及时发现和阻止恶意网络活动,保护网络资产免受攻击。该研究的自监督学习方法也为其他领域的异常检测问题提供了新的思路。
📄 摘要(原文)
Detecting intrusions in network traffic is a challenging task, particularly under limited supervision and constantly evolving attack patterns. While recent works have leveraged graph neural networks for network intrusion detection, they often decouple representation learning from anomaly detection, limiting the utility of the embeddings for identifying attacks. We propose GraphIDS, a self-supervised intrusion detection model that unifies these two stages by learning local graph representations of normal communication patterns through a masked autoencoder. An inductive graph neural network embeds each flow with its local topological context to capture typical network behavior, while a Transformer-based encoder-decoder reconstructs these embeddings, implicitly learning global co-occurrence patterns via self-attention without requiring explicit positional information. During inference, flows with unusually high reconstruction errors are flagged as potential intrusions. This end-to-end framework ensures that embeddings are directly optimized for the downstream task, facilitating the recognition of malicious traffic. On diverse NetFlow benchmarks, GraphIDS achieves up to 99.98% PR-AUC and 99.61% macro F1-score, outperforming baselines by 5-25 percentage points.