MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

📄 arXiv: 2501.01110v1 📥 PDF

作者: Jimin Park, AHyun Ji, Minji Park, Mohammad Saidur Rahman, Se Eun Oh

分类: cs.CR, cs.AI

发布日期: 2025-01-02

备注: Accepted paper at AAAI 2025. 9 pages, Figure 6, Table 1

期刊: Thirty-Ninth AAAI Conference on Artificial Intelligence 2025 (AAAI-25)

🔗 代码/项目: GITHUB


💡 一句话要点

MalCL:利用GAN生成回放对抗恶意软件分类中的灾难性遗忘

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 持续学习 恶意软件分类 生成对抗网络 生成回放 灾难性遗忘

📋 核心要点

  1. 恶意软件分类面临持续学习的挑战,传统方法易发生灾难性遗忘,导致旧知识丢失。
  2. 提出MalCL,利用GAN生成高质量恶意软件样本,并结合基于隐藏表示的样本选择策略。
  3. 实验结果表明,MalCL在Windows恶意软件分类上平均准确率达55%,显著优于其他GR模型。

📝 摘要(中文)

针对恶意软件威胁的快速演变和新型恶意软件的频繁出现,本文提出了一种基于生成回放(GR)的持续学习(CL)系统,用于恶意软件分类。该系统利用生成模型生成过去数据的合成版本,并将其与新数据结合以重新训练主模型。传统机器学习方法在此领域常常面临灾难性遗忘问题,即模型在旧数据上的性能随时间推移而下降。本文提出了一种基于GR的CL系统,该系统采用具有特征匹配损失的生成对抗网络(GAN)来生成高质量的恶意软件样本。此外,我们还实现了基于模型隐藏表示的创新性回放样本选择方案。在Windows和Android恶意软件数据集上的综合评估(采用类增量学习场景,即在多个任务中持续引入新类)表明,我们的系统在性能上显著优于以往的方法。例如,我们的系统在Windows恶意软件样本上实现了55%的平均准确率,比其他基于GR的模型高出28%。这项研究为推进基于GR的恶意软件分类系统提供了实践见解。代码可在https://github.com/MalwareReplayGAN/MalCL 获取。

🔬 方法详解

问题定义:恶意软件分类任务中,模型需要不断学习新的恶意软件类型,但传统机器学习方法容易发生灾难性遗忘,导致模型在旧的恶意软件类型上的性能显著下降。现有的持续学习方法在恶意软件分类任务中效果有限,难以平衡新旧知识的学习。

核心思路:利用生成回放(Generative Replay, GR)的思想,通过生成对抗网络(GAN)生成过去恶意软件样本的合成数据,并将这些合成数据与新数据混合,共同训练分类模型。这样可以缓解灾难性遗忘,使模型能够同时保持对新旧恶意软件类型的识别能力。此外,通过选择具有代表性的回放样本,进一步提升模型的性能。

技术框架:MalCL系统的整体框架包含两个主要模块:恶意软件分类器和基于GAN的生成器。首先,使用当前任务的数据训练恶意软件分类器。然后,训练GAN生成器,使其能够生成与过去任务数据相似的恶意软件样本。在后续任务中,将GAN生成的合成数据与新任务的数据混合,共同训练恶意软件分类器。同时,使用基于模型隐藏表示的样本选择策略,选择更有利于模型学习的回放样本。

关键创新:该论文的关键创新在于以下几点:1) 使用GAN生成高质量的恶意软件样本,缓解了传统生成回放方法中生成样本质量不高的问题。2) 提出了基于模型隐藏表示的样本选择策略,能够选择更有利于模型学习的回放样本,进一步提升了模型的性能。3) 将特征匹配损失引入GAN的训练过程中,提高了生成样本的质量和多样性。

关键设计:GAN的生成器和判别器都采用了深度卷积神经网络结构。生成器的输入是随机噪声,输出是合成的恶意软件样本。判别器的输入是真实恶意软件样本或合成恶意软件样本,输出是判别结果。GAN的训练目标是最小化生成器和判别器之间的对抗损失,同时最大化生成器生成的样本与真实样本之间的特征相似度(通过特征匹配损失实现)。样本选择策略基于模型在过去任务数据上的隐藏层输出,选择那些能够最大程度激活模型隐藏层的样本作为回放样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MalCL在Windows和Android恶意软件数据集上进行了广泛的实验验证。在类增量学习场景下,MalCL在Windows恶意软件分类任务中取得了55%的平均准确率,相比其他基于GR的模型提升了28%。实验结果表明,MalCL能够有效缓解灾难性遗忘,并显著提升恶意软件分类的性能。

🎯 应用场景

MalCL可应用于实时恶意软件检测系统,提升其对新型恶意软件的识别能力,并降低误报率。该研究成果有助于构建更安全可靠的网络环境,保护用户免受恶意软件侵害。未来,该方法可扩展到其他安全领域,如入侵检测、漏洞挖掘等。

📄 摘要(原文)

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.