KD-GAT: Combining Knowledge Distillation and Graph Attention Transformer for a Controller Area Network Intrusion Detection System
作者: Robert Frenken, Sidra Ghayour Bhatti, Hanqin Zhang, Qadeer Ahmed
分类: cs.LG, cs.AI
发布日期: 2025-07-25
💡 一句话要点
提出KD-GAT,结合知识蒸馏与图注意力Transformer用于CAN总线入侵检测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: CAN总线 入侵检测 图注意力网络 知识蒸馏 车载网络安全
📋 核心要点
- CAN总线缺乏安全机制易受攻击,现有入侵检测方法计算开销大,难以部署。
- KD-GAT利用图注意力网络提取CAN总线流量的时序和关系特征,并使用知识蒸馏压缩模型。
- 实验表明,KD-GAT在保证检测精度的同时,显著降低了模型大小,具有实际应用潜力。
📝 摘要(中文)
本文提出了一种名为KD-GAT的入侵检测框架,该框架结合了图注意力网络(GAT)与知识蒸馏(KD),旨在提高检测精度并降低计算复杂度。该方法将CAN总线流量表示为图,使用滑动窗口捕获时序和关系模式。一个具有跳跃知识聚合的多层GAT作为教师模型,而一个紧凑的学生GAT(仅为教师模型的6.32%)通过两阶段过程进行训练,包括有监督的预训练和具有软硬标签监督的知识蒸馏。在Car-Hacking、Car-Survival和can-train-and-test三个基准数据集上的实验表明,教师和学生模型都取得了良好的效果,其中学生模型在Car-Hacking和Car-Survival上分别达到了99.97%和99.31%的准确率。然而,can-train-and-test数据集中显著的类别不平衡导致两个模型在该数据集上的性能下降。解决这种不平衡仍然是未来工作的重要方向。
🔬 方法详解
问题定义:CAN总线作为车载通信的关键协议,缺乏固有的安全机制,容易遭受网络攻击。现有的入侵检测系统往往计算复杂度高,难以在资源受限的车载环境中部署。因此,需要一种既能保证检测精度,又能降低计算开销的入侵检测方法。
核心思路:本文的核心思路是利用知识蒸馏技术,将一个性能优越但计算复杂度高的教师模型(Teacher Model)的知识迁移到一个轻量级的学生模型(Student Model)上。通过这种方式,学生模型可以在保持较高检测精度的同时,显著降低计算复杂度,从而更适合在车载环境中部署。同时,使用图注意力网络(GAT)来提取CAN总线流量中的时序和关系特征。
技术框架:KD-GAT框架主要包含以下几个阶段:1) 数据预处理:使用滑动窗口将CAN总线流量转换为图结构,节点表示CAN消息,边表示消息之间的关系。2) 教师模型训练:训练一个多层GAT,并使用跳跃知识聚合(Jumping Knowledge Aggregation)来提升模型的性能。3) 学生模型预训练:使用有监督学习方法对学生模型进行预训练。4) 知识蒸馏:使用教师模型的输出(软标签)和真实标签(硬标签)来训练学生模型。
关键创新:KD-GAT的关键创新在于将知识蒸馏技术与图注意力网络相结合,用于CAN总线入侵检测。通过知识蒸馏,可以在保证检测精度的前提下,显著降低模型的计算复杂度。此外,使用图结构来表示CAN总线流量,可以更好地捕捉消息之间的时序和关系特征。
关键设计:教师模型采用多层GAT,并使用跳跃知识聚合来提升性能。学生模型是一个结构更简单的GAT,参数量远小于教师模型。知识蒸馏过程中,使用软标签和硬标签的加权组合作为损失函数,以平衡精度和泛化能力。滑动窗口的大小和图的构建方式是影响模型性能的关键参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KD-GAT框架中的学生模型在Car-Hacking和Car-Survival数据集上分别达到了99.97%和99.31%的准确率,性能接近教师模型,但模型大小仅为教师模型的6.32%。这表明KD-GAT能够在保证检测精度的同时,显著降低计算复杂度,具有实际应用价值。
🎯 应用场景
KD-GAT可应用于车载入侵检测系统,实时监测CAN总线流量,识别潜在的网络攻击。该研究成果有助于提升车辆的网络安全防护能力,降低车辆被攻击的风险,保障驾驶安全。未来,该方法还可扩展到其他工业控制系统和物联网设备的安全防护。
📄 摘要(原文)
The Controller Area Network (CAN) protocol is widely adopted for in-vehicle communication but lacks inherent security mechanisms, making it vulnerable to cyberattacks. This paper introduces KD-GAT, an intrusion detection framework that combines Graph Attention Networks (GATs) with knowledge distillation (KD) to enhance detection accuracy while reducing computational complexity. In our approach, CAN traffic is represented as graphs using a sliding window to capture temporal and relational patterns. A multi-layer GAT with jumping knowledge aggregation acting as the teacher model, while a compact student GAT--only 6.32% the size of the teacher--is trained via a two-phase process involving supervised pretraining and knowledge distillation with both soft and hard label supervision. Experiments on three benchmark datasets--Car-Hacking, Car-Survival, and can-train-and-test demonstrate that both teacher and student models achieve strong results, with the student model attaining 99.97% and 99.31% accuracy on Car-Hacking and Car-Survival, respectively. However, significant class imbalance in can-train-and-test has led to reduced performance for both models on this dataset. Addressing this imbalance remains an important direction for future work.